다섯 가지 Claude 모델에게 동일한 레포지토리 감사를 맡겼습니다. Fable이 승리하지 않았으며, 그것이 바로 핵심입니다.
요약
Anthropic의 Claude Fable을 포함한 5가지 Claude 모델을 대상으로 LangChain 모노레포 감사 실험을 진행했습니다. 실험 결과, 가장 높은 티어인 Fable이 모든 면에서 압도적이지 않았으며 모델별로 강점과 약점이 뚜렷하게 나타났습니다.
핵심 포인트
- Claude Fable이 반드시 모든 엔지니어링 작업에서 최상의 성능을 보장하는 것은 아님
- Opus는 설계 수준의 위협 모델링에 강점이 있고, Fable은 실행 가능한 백로그 생성에 특화됨
- 모델 티어에 따른 비용 지불이 항상 최선의 결과로 이어지지는 않으므로 주의 필요
- 각 모델의 강점(위협 포착 vs 작업 계획)이 다르므로 목적에 맞는 모델 선택이 중요
Anthropic이 Claude Fable을 출시했을 때, 당연한 질문은 다음과 같았습니다: 새로운 티어(tier)가 까다로운 엔지니어링 작업에서 다른 모든 것을 압도하는가?
우리는 벤치마크 점수나 단순한 느낌(vibe check)을 원하지 않았습니다. 우리는 file:line 증거, 심각도 라벨(severity labels), 그리고 실행 계획(execution plan)을 포함하여 실제 프로덕션 모노레포(monorepo)에 대한 **수석 엔지니어 감사(principal-engineer audit)**를 원했습니다.
그래서 우리는 통제된 실험을 진행했습니다:
- 단일 프롬프트 (4단계: 레포지토리 맵(repo map) → 감사(audit) → 전략(strategy) → 작업 계획(task plan))
- 단일 대상: LangChain Python 모노레포
- 다섯 가지 Claude 모델: Opus 4.8, Fable 5, Sonnet 5, Sonnet 4.6, Haiku 4.5
- 모든 실행에 동일한 설정 적용 — 프로젝트, 작업 디렉토리(work directory), WORK DIRECTORY 작업 모드
우리는 CTRL NODE를 통해 이를 실행했습니다 (실제 머신에서의 Bridge, 모델 티어당 하나의 에이전트). 단순히 다섯 개의 브라우저 탭을 띄운 것이 아니라, 팀에서 실제로 사용할 법한 워크플로우를 구축했습니다.
모든 모델에게 요구한 결과물
당신은 세계적인 수준의 수석 엔지니어(principal-engineer)급 소프트웨어 엔지니어이자 기술 감사 전문가입니다.
이 코드 레포지토리에 대한 심층 분석을 수행하고, 정직한 감사 보고서를 제공하며,
우선순위가 지정된 실행 가능한 개선 계획을 제시하십시오.
...
각 실행은 다음을 생성해야 했습니다:
audit-report-<model>.md— 전체 Markdown 보고서audit-report-<model>.html— 대화형 대시보드 (개요(Overview), 맵(Map), 감사(Audit), 전략(Strategy), 작업(Tasks))
주요 결과
단 하나의 승자는 없습니다.
다섯 개의 보고서, 다섯 개의 역할. 만약 당신이 가장 비싼 티어가 "모든 것을 더 잘할 것"이라고 생각하여 비용을 지불한다면, 중요한 발견을 놓칠 수 있습니다.
| 모델 | 등급 | 강점 | 약점 |
|---|---|---|---|
| Opus 4.8 | A− | 위협 모델링 (Threat modeling) (TOCTOU, 에이전트 셸 기본값) | CI 락파일(lockfile), 기본 load(), README 공백 |
| ... | |||
| *Haiku의 A 등급은 서류상으로는 자신감 있어 보였습니다. Sonnet 4.6과 교차 검증한 결과, CI에서의 락파일 검증에 대한 사실적 오류가 드러났습니다. |
Opus와 Fable은 등급은 같았지만, 역할은 달랐습니다. Opus는 설계 수준의 위협을 포착합니다. Fable은 발견된 사항을 즉시 배포 가능한 백로그(shippable backlog)로 전환합니다 (M0–M3, 노력/리스크, 명시적인 비목표(non-goals)).
누가 무엇을 발견했는가 (선별됨)
| 발견 사항 | Op | Fb | S5 | S4.6 | Hk |
|---|---|---|---|---|---|
| TOCTOU / DNS rebinding | ✓ | — | — | — | — |
| ... | |||||
Fable은 다른 모델들이 포착한 여러 문제들(TOCTOU, shell host defaults, graph_mermaid.py에서의 SSRF 격차, 주석 처리된 lockfile CI)을 포착하지 못했습니다. 그 격차가 바로 핵심입니다: Fable은 멀티 모델 파이프라인 (multi-model pipeline)을 대체할 수 없습니다. |
우리가 실제로 사용할 파이프라인
Haiku → 빠른 매핑 및 아키텍처 핫스팟 (architecture hotspots)
Sonnet 5 → 주요 감사 (primary audit) + 보안 채택 격차 (security adoption gaps)
Sonnet 4.6 → CI, 문서, 온보딩 지뢰 (onboarding landmines)
...
모델 선택은 워크플로우 결정 사항이지, 허영심을 위한 등급 선택이 아닙니다.
빌더들을 위한 시사점
- 높은 등급 ≠ 더 나은 보고서. 두 모델이 A−를 받고, Haiku가 A를 받았지만 — 사실 관계 오류가 있었습니다.
- 보안에는 계층이 있습니다 — Opus (TOCTOU), Sonnet 5 (SSRF 채택), Sonnet 4.6 + Fable (안전하지 않은 기본
load()). - Sonnet은 진화했습니다 — 5와 4.6은 서로를 보완하며, 어느 하나가 다른 하나를 대체하지 않습니다.
- 작업 디렉토리 (WORK DIRECTORY) 모드가 중요합니다 — 출력 전용 샌드박스 (output-only sandbox)였다면 CI, 코어, 그리고 파트너 패키지에 걸친 인용(citations)을 생성하지 못했을 것입니다.
전체 글 + 모든 결과물
이 포스트는 티저입니다. 나머지 모든 내용은 저희 사이트에 있습니다:
👉 전체 실험 읽기
포함 내용:
- 단계별 CTRL NODE 설정 (프로젝트, 에이전트, 태스크)
- Fable이 반환한 상세 내용 (요약 보고서, 독점적 발견 사항)
- 전체 비교 보고서 + 14슬라이드 덱
- 5개의 감사 보고서 전체 (Markdown + 대화형 HTML 대시보드)
- 귀하의 레포지토리에서 재실행할 수 있는 전체 감사 프롬프트 (audit prompt)
여러분의 스택에서 이를 시도해 보시거나 — 혹은 등급에 동의하지 않으신다면 — 무엇이 놀라웠는지 저희에게 알려주세요.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기