Anthropic의 200달러 실험: Harness를 통해 AI 성공률을 20%에서 100%로 끌어올린 방법
요약
Anthropic은 Opus 4.5 모델에 검증 루프를 포함한 Harness 시스템을 결합하여 성공률을 20%에서 100%로 높이는 실험을 진행했습니다. 모델 자체를 교체하기보다 컴파일, 테스트, 린트 등의 서브시스템을 구축하는 것이 성능 향상에 핵심임을 보여줍니다.
핵심 포인트
- Opus 4.5 단독 사용 시 성공률은 20%에 불과함
- Harness 시스템 도입 시 비용은 증가하나 성공률 100% 달성 가능
- 검증 루프(컴파일, 테스트, 린트)가 성능 향상의 핵심 요소
- 모델 교체보다 에이전트 프레임워크 구축이 더 중요함
요약 (Summary)
Anthropic은 통제된 실험을 진행했습니다: Opus 4.5 단독 사용 ($9) = 성공률 20%. 여기에 Harness (하네스) (5개 서브시스템)를 추가하면 = **$200 비용으로 성공률 100%**를 달성했습니다. OpenAI는 백만 라인 규모의 저장소(repo)를 통해 이를 확인했습니다: 단 하나의 AGENTS.md 파일이 모든 것을 바꾸었습니다. 모델을 교체하는 것을 멈추세요. 먼저 당신의 Harness를 구축하십시오.
실험 (The Experiment)
| 설정 (Config) | 비용 (Cost) | 성공률 (Success Rate) |
|---|---|---|
| Opus 4.5 단독 (solo) | $9 | 20% |
| Opus 4.5 + Harness | $200 | 100% |
$191의 추가 비용은 모두 검증 루프(verification loops)에 사용되었습니다: 컴파일(compile), 테스트(test), 린트(lint)
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기