DeepSWE: 오늘날의 프론티어 모델들이 실제로 코드를 얼마나 잘 작성할 수 있는지 살펴보는 새로운 벤치마크
요약
DeepSWE는 프론티어 모델의 실제 코드 작성 능력을 평가하기 위해 설계된 새로운 벤치마크입니다. 데이터 오염을 방지하고 실제 소프트웨어 엔지니어링의 복잡성을 반영하며, 신뢰할 수 있는 검증 방식을 제공합니다.
핵심 포인트
- 사전 학습 데이터 오염이 없는 순수 작업 구성
- 5개 언어 및 91개 저장소를 아우르는 높은 다양성
- 실제 세계의 복잡성을 반영한 코드 및 토큰 요구량
- 소프트웨어 동작 중심의 수동 작성 검증기 활용
DeepSWE는 기존의 공개 벤치마크 대비 네 가지 진보를 제공합니다:
오염 없음 (Contamination free): 작업들이 기존의 커밋(commit)이나 PR(Pull Request)에서 변형된 것이 아니라 처음부터 새로 작성되었으므로, 어떤 모델도 사전 학습(pretraining) 과정에서 정답을 본 적이 없습니다.
높은 다양성 (High diversity): 작업들은 5개 언어에 걸친 91개 저장소(repository)의 광범위한 풀에 걸쳐 있습니다.
실제 세계의 복잡성 (Real-world complexity): 프롬프트(prompt) 길이는 SWE-bench Pro의 약 절반 수준이지만, 해결책은 5.5배 더 많은 코드와 약 2배 더 많은 출력 토큰(output tokens)을 필요로 합니다.
신뢰할 수 있는 검증 (Reliable verification): 검증기(verifier)는 구현 세부 사항이 아닌 소프트웨어 동작을 테스트하도록 수동으로 작성되었습니다.
그 결과, 오늘날의 프론티어 코딩 에이전트(coding agents)가 소프트웨어 엔지니어링 작업에서 실제로 어떻게 수행하는지를 반영하는 벤치마크가 탄생했습니다.
https://preview.redd.it/lacvagyr159h1.png?width=1373&format=png&auto=webp&s=6514340a15d51d7f03da733f08fb3f6a302cac75
오픈 소스입니다: https://github.com/datacurve-ai/deep-swe
/u/we_are_mammals 에 의해 r/MachineLearning 에 제출됨
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기