OpenAI헤드라인2026. 04. 24. 04:58

SWE-bench 평가 중단 선언: 모델 성능 측정의 새로운 기준 제시

요약

OpenAI는 자율 소프트웨어 엔지니어링(autonomous software engineering) 능력을 측정하는 지표로 사용되던 SWE-bench Verified 평가를 더 이상 사용하지 않겠다고 발표했습니다. 주요 원인은 두 가지입니다. 첫째, 감사 결과 27.6%의 문제 중 59.4%가 기능적으로 올바른 제출을 거부하는 결함 있는 테스트 케이스를 포함하고 있습니다. 둘째, 최신 대규모 모델(frontier models)들이 학습 데이터셋에서 평가 문제를 접했을 가능성이 높아져, 성능 향상이 실제 능력 개선이 아닌 '학습 노출

핵심 포인트

SWE-bench Verified는 초기부터 자율 소프트웨어 엔지니어링 측정 표준이었으나, 현재 모델 수준에서는 적합하지 않다고 판단됨.
감사 결과, SWE-bench Verified의 문제 중 59.4%가 기능적으로 올바른 해결책을 거부하는 결함 있는 테스트 케이스를 포함하고 있음이 밝혀짐.
최신 대규모 모델들은 평가 문제를 학습 데이터에서 접했을 가능성이 높아져, 성능 향상이 실제 능력 개선보다 '학습 노출'에 기인할 수 있음.
OpenAI는 새로운 오염되지 않은(uncontaminated) 평가를 구축 중이며, 임시적으로 SWE-bench Pro 보고를 권장함.

자율 소프트웨어 엔지니어링(autonomous software engineering) 분야의 모델 능력을 측정하는 핵심 지표였던 SWE-bench Verified에 대한 OpenAI의 재평가 결과가 발표되었습니다. 이 분석은 해당 벤치마크가 현재 최고 성능 수준의 모델 능력을 측정하기에는 근본적인 문제점을 안고 있음을 시사합니다.

1. 평가 데이터셋 자체의 결함 발견:
OpenAI는 SWE-bench Verified 데이터셋의 27.6%를 감사한 결과, 해당 문제 중 최소 59.4%가 기능적으로 올바른 제출(functionally correct submissions)을 거부하는 결함 있는 테스트 케이스를 포함하고 있음을 확인했습니다. 이는 모델이 실제로는 성공적인 코드를 작성했음에도 불구하고, 테스트 설계상의 오류로 인해 실패 처리되는 경우가 많다는 것을 의미합니다.

2. 학습 데이터 오염(Data Contamination) 문제:
더 심각한 문제는 최신 대규모 언어 모델(Large Frontier Models)들이 평가에 사용되는 문제를 이미 훈련 과정에서 접했을 가능성이 높다는 점입니다. 이는 마치 시험을 앞두고 문제와 답안지를 미리 본 학생과 그렇지 않은 학생의 차이와 같습니다. SWE-bench 문제는 오픈 소스 저장소에서 가져오기 때문에, 모델 개발사들은 이 데이터를 학습에 활용할 수밖에 없습니다. 실제로 OpenAI는 테스트한 모든 최신 모델들이 '골드 패치(gold patch)' 또는 문제 설명의 특정 구문 등 원본 인간 작성 버그 수정 내용을 그대로 재현하는 것을 발견했습니다.

이러한 오염은 성능 향상이 모델 자체의 실제 소프트웨어 개발 능력 개선을 반영하기보다, 단순히 **'벤치마크에 얼마나 많이 노출되었는지(exposure)'**를 반영하게 만듭니다. 따라서 OpenAI는 SWE-bench Verified 점수 보고를 중단하고 다른 개발사들에게도 이를 권고했습니다.

3. 결론 및 향후 방향:
OpenAI는 현재 더 나은 코딩 능력을 추적하기 위해 새로운, 오염되지 않은(uncontaminated) 평가 시스템을 구축하는 데 집중하고 있습니다. 연구 커뮤니티의 관심을 이 분야에 집중할 것을 권장하며, 새로운 평가가 마련될 때까지는 임시적으로 SWE-bench Pro 결과를 보고하는 것이 최선이라고 제안했습니다.

한편, 초기 버전인 SWE-bench(2023년 출시) 역시 여러 문제점을 안고 있었습니다. 일부 유닛 테스트가 너무 구체적이거나 작업 내용과 맞지 않아 올바른 수정이 거부되기도 했으며, 문제 설명 자체가 모호하여 다양한 해석이 가능했음에도 불구하고 테스트는 특정 해석만을 요구하는 경우가 많았습니다. SWE-bench Verified는 이러한 문제를 개선하기 위해 1,699개의 문제를 전문가 검토를 거쳐 500개로 선별한 것이었으나, 위에서 언급된 구조적 한계(특히 테스트 케이스의 결함과 데이터 오염)가 해결되지 않았습니다.

AI 자동 생성 콘텐츠

원문 바로가기

SWE-bench 평가 중단 선언: 모델 성능 측정의 새로운 기준 제시

요약

핵심 포인트

댓글