Reddit요약2026. 06. 24. 15:13

DeepSWE: 오늘날의 프론티어 모델들이 실제로 코드를 얼마나 잘 작성할 수 있는지 살펴보는 새로운 벤치마크

요약

DeepSWE는 프론티어 모델의 실제 코드 작성 능력을 평가하기 위해 설계된 새로운 벤치마크입니다. 데이터 오염을 방지하고 실제 소프트웨어 엔지니어링의 복잡성을 반영하며, 신뢰할 수 있는 검증 방식을 제공합니다.

핵심 포인트

사전 학습 데이터 오염이 없는 순수 작업 구성
5개 언어 및 91개 저장소를 아우르는 높은 다양성
실제 세계의 복잡성을 반영한 코드 및 토큰 요구량
소프트웨어 동작 중심의 수동 작성 검증기 활용

DeepSWE는 기존의 공개 벤치마크 대비 네 가지 진보를 제공합니다:

오염 없음 (Contamination free): 작업들이 기존의 커밋(commit)이나 PR(Pull Request)에서 변형된 것이 아니라 처음부터 새로 작성되었으므로, 어떤 모델도 사전 학습(pretraining) 과정에서 정답을 본 적이 없습니다.
높은 다양성 (High diversity): 작업들은 5개 언어에 걸친 91개 저장소(repository)의 광범위한 풀에 걸쳐 있습니다.
실제 세계의 복잡성 (Real-world complexity): 프롬프트(prompt) 길이는 SWE-bench Pro의 약 절반 수준이지만, 해결책은 5.5배 더 많은 코드와 약 2배 더 많은 출력 토큰(output tokens)을 필요로 합니다.
신뢰할 수 있는 검증 (Reliable verification): 검증기(verifier)는 구현 세부 사항이 아닌 소프트웨어 동작을 테스트하도록 수동으로 작성되었습니다.

그 결과, 오늘날의 프론티어 코딩 에이전트(coding agents)가 소프트웨어 엔지니어링 작업에서 실제로 어떻게 수행하는지를 반영하는 벤치마크가 탄생했습니다.
https://preview.redd.it/lacvagyr159h1.png?width=1373&format=png&auto=webp&s=6514340a15d51d7f03da733f08fb3f6a302cac75
오픈 소스입니다: https://github.com/datacurve-ai/deep-swe
/u/we_are_mammals 에 의해 r/MachineLearning 에 제출됨
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

DeepSWE: 오늘날의 프론티어 모델들이 실제로 코드를 얼마나 잘 작성할 수 있는지 살펴보는 새로운 벤치마크

요약

핵심 포인트

댓글