$200 vs $9 — 인프라가 모델 선택보다 중요하다는 것을 증명하는 Anthropic의 실험
요약
Anthropic의 실험 결과, 고성능 모델 단독 사용보다 검증 루프를 포함한 인프라 구축이 코딩 성공률을 획기적으로 높임을 증명했습니다. $9의 모델에 $191의 엔지니어링 비용을 추가했을 때 성공률이 20%에서 100%로 상승했습니다.
핵심 포인트
- 모델 성능보다 검증 루프(컴파일, 테스트 등)가 성공률에 더 큰 영향을 미침
- 지침, 도구, 환경, 상태, 피드백의 5가지 하위 시스템 구축 권장
- AGENTS.md, 프리커밋 훅, MEMORY.md 도입을 통한 즉각적 개선 가능
요약 (TL;DR) — Anthropic은 AI 코딩 결과물을 비교하는 통제된 실험을 진행했습니다:
| 설정 | 비용 | 성공률 |
|---|---|---|
| 순수 Opus 4.5 | $9 | 20% |
| + Harness Engineering (하네스 엔지니어링) | $200 | 100% |
추가된 $191은 컴파일(compile), 테스트(test), 린트(lint), 타입 체크(type-check), 반복(repeat)과 같은 검증 루프(verification loops)에 사용되었습니다. OpenAI 또한 백만 라인의 코드베이스를 대상으로 동일한 실험을 수행했으며 동일한 결과를 얻었습니다.
5가지 하위 시스템 (The 5 Subsystems)
- 지침 (Instructions, AGENTS.md) — AI에게 프로젝트 컨벤션(conventions)을 전달
- 도구 (Tools, settings.json allowlist) — 파일 수정 실수를 방지
- 환경 (Environment, setup.sh/Dockerfile) — "내 컴퓨터에서는 되는데" 문제 해결
- 상태 (State, MEMORY.md/PROGRESS.md) — 세션 간 컨텍스트 (cross-session context)
- 피드백 (Feedback, CI/lint/type-check) — AI의 실수를 조기에 포착
오늘 바로 할 수 있는 3가지
- AGENTS.md 추가 (30분) — OpenAI는 이 파일 하나만으로도 개선 효과를 확인했습니다.
- 프리커밋 훅 (Pre-commit hooks, 1시간) — npx tsc --noEmit + npm test
- MEMORY.md 작성 (20분) — 세션 간 컨텍스트를 추적
결론 (The Bottom Line)
모델은 엔진입니다. 하네스(Harness)는 핸들, 브레이크, 그리고 안전벨트입니다.
| 요소 | 영향력 |
|---|---|
| 모델 버전 (Model version) | ~20% |
| ... |
이 내용이 유용했나요? 매일 새로운 AI 엔지니어링 발견을 확인하려면 Dev.to에서 저를 팔로우하세요.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기