X요약2026. 06. 10. 02:56

새로운 코딩 벤치마크 FrontierCode 소개

요약

Cognition이 AI 코드가 단순한 기능 구현을 넘어 실제 유지보수자가 병합할 수 있는 수준의 품질과 스타일을 갖추었는지 테스트하는 새로운 코딩 벤치마크인 FrontierCode를 소개했습니다. 이 벤치마크는 코드 리뷰와 프로젝트 관례 준수를 중점적으로 평가하며, 최고 모델들조차 높은 점수를 받기 어렵다는 사실을 보여주었습니다.

핵심 포인트

FrontierCode는 단순 기능 구현이 아닌 '병합 가능성'에 초점을 맞춘 코딩 벤치마크입니다.
최고의 LLM들도 프로젝트 스타일과 관례를 지키는 코드 생성에는 여전히 어려움을 겪습니다.
평가는 블로커(merge 방해 요소)와 읽기 쉬움, 타입 안전성 같은 품질 항목으로 이루어집니다.
Reverse-classical 테스트 등 일반 단위 테스트 이상의 검증 메커니즘을 포함합니다.

놀랍습니다! 바로 우리가 필요했던 기준점입니다.

Claude Opus 4.8은 단지 13.4%의 점수를 기록했습니다. 다른 모델들은 더 낮은 점수를 받았습니다: GPT-5.5는 6.3%, Gemini 3.1 Pro는 4.7%를 받았고, 그 외 모델들은 훨씬 적었습니다.

Cognition은 AI 코드가 단순히 테스트를 통과하는지 여부가 아니라 실제 유지보수자가 병합(merge)할 수 있을 만큼 충분히 좋은지 테스트하도록 설계된 코딩 벤치마크인 FrontierCode를 소개합니다.

FrontierCode는 더 어려운 질문을 던집니다: 모델이 프로젝트의 기존 스타일과 맞는, 깨끗하고 제한적이며 잘 테스트되고 읽기 쉬운 패치(patch)를 생성했는가? 그리고 그것이 심각한 코드 검토(code review)를 통과할 수 있는가?

이 벤치마크는 난이도가 높아지는 세 개의 중첩된 하위 집합으로 구성되어 있습니다: Main은 가장 어려운 100개, Diamond는 가장 어려운 50개의 과제를 포함합니다.

20명 이상의 오픈 소스 유지보수자들이 이 과제들을 설계하는 데 도움을 주었으며, 각 과제는 구축, 검토, 공격 및 보정(calibrate)에 40시간 이상이 소요되었습니다.

가장 큰 발견은 최고 모델들조차 단순히 작동하는 코드 대신 병합 가능한 코드가 목표일 때 여전히 심하게 어려움을 겪는다는 것입니다.

Diamond 난이도에서 최고의 모델인 Claude Opus 4.8은 단지 13.4%의 점수를 받았고, GPT-5.5는 6.3%, Gemini 3.1 Pro는 4.7%를 기록했으며, 언급된 최고의 오픈 소스 모델인 Kimi K2.6은 3.8%를 기록했습니다.

이는 오늘날 가장 강력한 코딩 에이전트들이 종종 행동(behavior)을 패치할 수는 있지만, 설계, 절제, 테스트 품질 및 프로젝트 관례와 관련된 많은 인간 검토 표준을 여전히 충족하지 못함을 보여줍니다.

이 메커니즘은 블로커(blockers)와 비-블로커(non-blockers)를 중심으로 구축된 채점 시스템입니다.

블로커란 깨진 동작, 누락된 필수 동작, 안전하지 않은 범위 변경, 나쁜 성능 또는 수정 사항을 증명하지 못하는 테스트 등 유지보수자가 PR(Pull Request)을 병합하는 것을 막는 무언가를 의미합니다.

어떤 블로커라도 실패한 해결책은 코드의 일부가 좋아 보여도 0점을 받습니다.

통과한 해결책은 읽기 쉬움, 타입 안전성, 스타일 및 기존 코드베이스와의 적합성과 같은 더 부드러운 품질 항목을 기반으로 가중 점수를 받습니다.

FrontierCode는 또한 일반적인 단위 테스트(unit tests)를 넘어선 검사도 추가합니다.

Reverse-classical 테스트는 모델이 자체적으로 작성한 테스트를 원래의 버그가 있는 코드에 실행하며, 이 테스트들은 실패해야 합니다. 이는 모델이 실제로 버그를 잡아내는 테스트를 작성했음을 증명합니다.

Scope checks는 관련 없는 파일을 건드리거나, 지나치게 큰 diff(차이점)를 추가하거나, 작업에서 요구하지 않은 부분을 리팩토링하는 패치에 페널티를 부과합니다.

Adaptive grading은 LLM을 사용하여 유효한 구현상의 차이를 중심으로 테스트 스캐폴딩을 조정합니다. 따라서 좋은 해결책이라도 단순히 다른 함수 이름이나 오류 문구를 사용했다는 이유만으로 거부되지 않습니다.

AI 자동 생성 콘텐츠

원문 바로가기

새로운 코딩 벤치마크 FrontierCode 소개

요약

핵심 포인트

댓글