Dev.to헤드라인2026. 06. 01. 07:15

$200 vs $9 — 인프라가 모델 선택보다 중요하다는 것을 증명하는 Anthropic의 실험

요약

Anthropic의 실험 결과, 고성능 모델 단독 사용보다 검증 루프를 포함한 인프라 구축이 코딩 성공률을 획기적으로 높임을 증명했습니다. $9의 모델에 $191의 엔지니어링 비용을 추가했을 때 성공률이 20%에서 100%로 상승했습니다.

핵심 포인트

모델 성능보다 검증 루프(컴파일, 테스트 등)가 성공률에 더 큰 영향을 미침
지침, 도구, 환경, 상태, 피드백의 5가지 하위 시스템 구축 권장
AGENTS.md, 프리커밋 훅, MEMORY.md 도입을 통한 즉각적 개선 가능

요약 (TL;DR) — Anthropic은 AI 코딩 결과물을 비교하는 통제된 실험을 진행했습니다:

설정	비용	성공률
순수 Opus 4.5	$9	20%
+ Harness Engineering (하네스 엔지니어링)	$200	100%

추가된 $191은 컴파일(compile), 테스트(test), 린트(lint), 타입 체크(type-check), 반복(repeat)과 같은 검증 루프(verification loops)에 사용되었습니다. OpenAI 또한 백만 라인의 코드베이스를 대상으로 동일한 실험을 수행했으며 동일한 결과를 얻었습니다.

5가지 하위 시스템 (The 5 Subsystems)

지침 (Instructions, AGENTS.md) — AI에게 프로젝트 컨벤션(conventions)을 전달
도구 (Tools, settings.json allowlist) — 파일 수정 실수를 방지
환경 (Environment, setup.sh/Dockerfile) — "내 컴퓨터에서는 되는데" 문제 해결
상태 (State, MEMORY.md/PROGRESS.md) — 세션 간 컨텍스트 (cross-session context)
피드백 (Feedback, CI/lint/type-check) — AI의 실수를 조기에 포착

오늘 바로 할 수 있는 3가지

AGENTS.md 추가 (30분) — OpenAI는 이 파일 하나만으로도 개선 효과를 확인했습니다.
프리커밋 훅 (Pre-commit hooks, 1시간) — npx tsc --noEmit + npm test
MEMORY.md 작성 (20분) — 세션 간 컨텍스트를 추적

결론 (The Bottom Line)

모델은 엔진입니다. 하네스(Harness)는 핸들, 브레이크, 그리고 안전벨트입니다.

요소	영향력
모델 버전 (Model version)	~20%
...

이 내용이 유용했나요? 매일 새로운 AI 엔지니어링 발견을 확인하려면 Dev.to에서 저를 팔로우하세요.

AI 자동 생성 콘텐츠

원문 바로가기

$200 vs $9 — 인프라가 모델 선택보다 중요하다는 것을 증명하는 Anthropic의 실험

요약

핵심 포인트

5가지 하위 시스템 (The 5 Subsystems)

오늘 바로 할 수 있는 3가지

결론 (The Bottom Line)

댓글