Dev.to헤드라인2026. 05. 31. 00:12

Anthropic의 200달러 실험: Harness를 통해 AI 성공률을 20%에서 100%로 끌어올린 방법

요약

Anthropic은 Opus 4.5 모델에 검증 루프를 포함한 Harness 시스템을 결합하여 성공률을 20%에서 100%로 높이는 실험을 진행했습니다. 모델 자체를 교체하기보다 컴파일, 테스트, 린트 등의 서브시스템을 구축하는 것이 성능 향상에 핵심임을 보여줍니다.

핵심 포인트

Opus 4.5 단독 사용 시 성공률은 20%에 불과함
Harness 시스템 도입 시 비용은 증가하나 성공률 100% 달성 가능
검증 루프(컴파일, 테스트, 린트)가 성능 향상의 핵심 요소
모델 교체보다 에이전트 프레임워크 구축이 더 중요함

요약 (Summary)

Anthropic은 통제된 실험을 진행했습니다: Opus 4.5 단독 사용 ($9) = 성공률 20%. 여기에 Harness (하네스) (5개 서브시스템)를 추가하면 = **$200 비용으로 성공률 100%**를 달성했습니다. OpenAI는 백만 라인 규모의 저장소(repo)를 통해 이를 확인했습니다: 단 하나의 AGENTS.md 파일이 모든 것을 바꾸었습니다. 모델을 교체하는 것을 멈추세요. 먼저 당신의 Harness를 구축하십시오.

실험 (The Experiment)

설정 (Config)	비용 (Cost)	성공률 (Success Rate)
Opus 4.5 단독 (solo)	$9	20%
Opus 4.5 + Harness	$200	100%

$191의 추가 비용은 모두 검증 루프(verification loops)에 사용되었습니다: 컴파일(compile), 테스트(test), 린트(lint)

AI 자동 생성 콘텐츠

원문 바로가기

Anthropic의 200달러 실험: Harness를 통해 AI 성공률을 20%에서 100%로 끌어올린 방법

요약

핵심 포인트

요약 (Summary)

실험 (The Experiment)

댓글