Fable이 교체되었습니다
요약
Claude Fable 5가 BridgeBench 테스트에서 성능이 급격히 하락했습니다. 이는 새로운 안전 필터가 코딩 작업을 위험한 것으로 오분류하여 모델 실행을 Opus 4.8로 전환하기 때문입니다.
핵심 포인트
- 디버깅 성능이 86.2에서 25.9로 급락
- 리팩토링 및 환각 방지 성능도 동반 하락
- 새로운 안전 필터가 코딩 작업을 과도하게 차단
- 필터 미적용 시 이전 버전과 유사한 성능 발휘
Claude Fable 5는 복귀 후 BridgeBench에서 다시 테스트되었습니다. 결과가 급격히 하락했습니다.
디버깅 (Debugging): 86.2 → 25.9
리팩토링 (Refactoring): 73.6 → 38.4
환각 (Hallucination): 75.9 → 61.7
작업이 안전 필터 (safety filters)를 통과할 때, 모델은 6월 12일 버전처럼 성능을 발휘합니다.
주요 문제는 새로운 필터들입니다. 이 필터들은 코딩 작업을 너무 자주 위험한 것으로 분류하여 실행을 Opus 4.8로 전환합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기