Agentic Harness Engineering 가 Terminal-Bench 2 에서 코딩 에이전트 성능을 7% 향상시킴
요약
Agentic Harness Engineering이라는 새로운 구조화된 접근 방식이 코딩 에이전트의 성능을 획기적으로 향상시켰습니다. 이 프레임워크는 되돌릴 수 있는 구성 요소, 압축된 경험, 반증 가능한 결정을 사용하여 에이전트 harness를 체계적이고 통제 가능하게 진화시킵니다. 그 결과, Terminal-Bench 2에서 pass@1 점수가 단 10회 반복 만에 69.7%에서 77.0%로 상승하여 기존의 인간 설계 기준선 및 자체 진화 모델들을 모두 능가하는 성과를 거두었습니다.
핵심 포인트
- Agentic Harness Engineering은 코딩 에이전트 harness의 진화를 위한 구조적이고 통제 가능한 프레임워크를 제공합니다.
- 되돌릴 수 있는 구성 요소, 압축된 경험, 반증 가능한 결정이라는 세 가지 레이어를 통해 체계적인 개선을 가능하게 합니다.
- Terminal-Bench 2에서 pass@1 점수가 기존 최고 기준선(Codex-CLI 등)을 능가하는 77.0%를 달성했습니다.
- 이 접근 방식은 모델 간의 성능 전이(Cross-model transfer)에 상당한 이득(+5.1 ~ +10.1점)을 보이며, 토큰 효율성도 개선했습니다.
Agentic Harness Engineering 은 되돌릴 수 있는 구성 요소, 압축된 경험, 반증 가능한 결정을 사용하여 코딩 에이전트 harness 의 진화를 위한 구조화된 접근 방식을 도입합니다. Terminal-Bench 2 에서 pass@1 은 10 회 반복을 통해 69.7% 에서 77.0% 로 상승하여 인간이 설계한 기준선 (human-designed baselines) 을 능가했습니다.
핵심 요약
Agentic Harness Engineering 은 되돌릴 수 있는 구성 요소, 압축된 경험, 반증 가능한 결정을 사용하여 코딩 에이전트 harness 의 진화를 위한 구조화된 접근 방식을 도입합니다. Terminal-Bench 2 에서 pass@1 은 10 회 반복을 통해 69.7% 에서 77.0% 로 상승하여 인간이 설계한 기준선 (human-designed baselines) 을 능가했습니다.
무엇이 일어났는가?
새로운 연구 논문을 통해 Agentic Harness Engineering 이 소개되었습니다. 이는 코딩 에이전트 harness 의 진화를 관찰 가능하고 통제 가능하게 만드는 프레임워크입니다. 이 접근 방식은 각 편집을 검증하거나 되돌릴 수 있는 계약으로 취급하며, 세 가지 레이어를 사용합니다: 구성 요소는 되돌릴 수 있는 파일로, 경험은 수백만 개의 trajectory 토큰에서 압축된 증거로, 결정은 작업 결과에 대해 확인되는 반증 가능한 예측입니다. Terminal-Bench 2 에서 pass@1 은 단 10 회 반복 만에 69.7% 에서 77.0% 로 상승하여 인간이 설계한 Codex-CLI (71.9%) 와 ACE, TF-GRPO 와 같은 자체 진화 기준선을 모두 능가했습니다. 진화된 harness 는 모델 가족 간에 +5.1 점부터 +10.1 점까지의 이득을 보이며, SWE-bench-verified 에서 시드 (seed) 보다 12% 적은 토큰을 사용합니다.
맥락
오늘날 대부분의 코딩 에이전트 harness 는 여전히 수동으로 조정되거나 취약한 시행착오 기반의 자체 진화를 통해 튜닝됩니다. 이 작업은 잡음으로 흘러가지 않고 harness 가 스스로 개선될 수 있는 첫 번째 신뢰할 수 있는 레시피를 제공합니다. 프레임워크는 소스 트윗에서 링크된 논문에서 자세히 설명되어 있습니다.
작동 방식
프레임워크는 세 가지 레이어를 통해 작동합니다:
- 구성 요소로서의 되돌릴 수 있는 파일: harness 의 각 부분은 이전 버전으로 되돌릴 수 있는 파일로 저장됩니다.
- 경험으로서의 압축된 증거: 수백만 개의 trajectory 토큰이 실행 가능한 증거로 압축됩니다.
- 결정으로서의 반증 가능한 예측: 각 결정은 작업 결과에 대해 확인되어 피드백 루프를 생성합니다.
이 구조는 harness 가 체계적으로 진화할 수 있도록 하여, 이전 자체 진화 접근법의 잡음과 취약점을 피하게 합니다.
주요 결과
| 지표 | 시드 (Seed) | 진화된 (10 회 반복) | 개선 |
|---|---|---|---|
| Terminal-Bench 2 pass@1 | 69.7% | 77.0% | +7.3% |
| Codex-CLI (인간 설계) | 71.9% | — | 진화된 harness 에 의해 능가됨 |
| ACE 기준선 | — | — | 진화된 harness 에 의해 능가됨 |
| TF-GRPO 기준선 | — | — | 진화된 harness 에 의해 능가됨 |
| 크로스 모델 전송 (Cross-model transfer) | — | +5.1 ~ +10.1 점 | 상당한 이득 |
| SWE-bench-verified 토큰 사용량 | — | 시드 대비 12% 감소 | 효율성 개선 |
왜 중요한가?
harness 작업은 대부분의 에이전트 시스템에서 가장 큰 숨겨진 비용입니다. 이 프레임워크는 수동 튜닝이나 잡음 축적 없이 harness 를 개선할 수 있는 체계적인 방법을 제공합니다. 크로스 모델 전송 결과는 이 접근 방식이 잘 일반화됨을 시사하며, SWE-bench-verified 에서의 토큰 효율성 개선은 프로덕션 시스템에 대한 실용적인 이점입니다.
gentic.news 분석
이 작업은 에이전트 코딩 생태계의 중요한 병목 현상을 해결합니다. 우리가 다루어온
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기