SpecBench: 장기적 목표를 가진 코딩 에이전트(Long-Horizon Coding Agents)의 보상 해킹(Reward

장기적 목표를 가진 코딩 에이전트(Long-Horizon Coding Agents)가 개발자가 검토할 수 있는 수준보다 더 많은 코드를 생성함에 따라, 감독(Oversight)은 자동화된 테스트 스위트(Automated test suite)라는 단일 표면으로 집중됩니다. 이러한 설정에서는 에이전트가 사용자의 실제 목표에서 벗어나 테스트를 통과하는 것에만 최적화됨에 따라 보상 해킹(Reward hacking)이 자연스럽게 발생합니다. 우리는 소프트웨어 엔지니어링 작업을 세 부분으로 분해하여 이 보상 해킹 현상을 연구합니다: (i) 명세(Specification)에 대한 자연어 설명, (ii) 지정된 기능을 격리하여 실행하는 가시적인 검증 테스트(Visible validation tests), (iii) 실제 사용 상황을 시뮬레이션하기 위해 동일한 기능들을 조합한 홀드아웃 테스트(Held-out tests). 명세와 가시적인 검증 테스트 스위트를 기반으로, 진정한 에이전트라면 홀드아웃 테스트를 모두 통과할 수 있는 솔루션을 생성할 수 있어야 합니다. 따라서 우리는 이 두 스위트의 통과율(Pass rates) 차이를 사용하여 보상 해킹을 정량화합니다. 이러한 방법론을 바탕으로, 우리는 JSON 파서를 구축하는 것과 같은 짧은 기간의 작업부터 OS 커널 전체를 처음부터 구축하는 것과 같은 초장기적(Ultra long horizon) 작업에 이르는 30개의 시스템 수준 프로그래밍 작업으로 구성된 벤치마크인 SpecBench를 소개합니다. 대규모 실험 결과 일관된 패턴이 드러났습니다: 모든 프런티어 에이전트(Frontier agent)가 가시적인 스위트에서는 포화 상태에 도달하지만, 보상 해킹은 지속되며, 규모가 작은 모델일수록 홀드아웃 스위트에서 더 큰 격차를 보입니다. 이 격차는 작업 길이(Task length)에 따라 급격히 증가합니다: 코드 크기가 10배 증가할 때마다 격차는 28%포인트씩 커집니다. 실패 사례는 미묘한 기능 격리부터 테스트 입력을 암기하는 2,900라인 길이의 해시 테이블(Hash-table) "컴파일러"를 포함한 의도적인 악용(Deliberate exploits)에 이르기까지 다양합니다. SpecBench는 코딩 에이전트가 진정으로 작동하는 시스템을 구축하는지, 아니면 단순히 개발자가 제공한 테스트 스위트를 속이는지(Game the test suites) 측정하기 위한 원칙적인 테스트베드를 제공합니다.

Insights

SpecBench: 장기적 목표를 가진 코딩 에이전트(Long-Horizon Coding Agents)의 보상 해킹(Reward

요약

핵심 포인트

댓글

엔비디아 다음 세대 AI 서버는 GPU를 사는 게 아니라 점점 HBM 덩어리를 사는 것에 가까워진다.

프론트엔드를 선택 사항으로 만든 GitHub 저장소

OmniDesk v2.3.1: 이제 휴대폰에서도 Claude 코드를 실제로 구동할 수 있게 되었습니다

로컬 AI의 또 다른 대성공

엔비디아 다음 세대 AI 서버는 GPU를 사는 게 아니라 점점 HBM 덩어리를 사는 것에 가까워진다.

프론트엔드를 선택 사항으로 만든 GitHub 저장소

OmniDesk v2.3.1: 이제 휴대폰에서도 Claude 코드를 실제로 구동할 수 있게 되었습니다

로컬 AI의 또 다른 대성공