Fable의 코딩 및 관련 작업에서 큰 성능 향상에 대한 많은 증거
요약
Fable 모델이 코딩 및 복잡한 지식 노동 작업 전반에서 큰 성능 향상을 보였습니다. Box AI Agent를 활용한 테스트 결과, Fable은 Opus 4.8 대비 다단계 계산의 정확성, 추론 과정의 일관성 등 여러 산업 분야(법률, 금융, 기술 등)에서 우위를 입증했습니다.
핵심 포인트
- Fable은 복잡한 지식 노동 및 코딩 작업에서 큰 성능 향상을 보임.
- 다단계 계산과 분석적 추론에서 Opus 4.8 대비 높은 정확도를 기록함.
- 법률 M&A, 금융 서비스 등 전문 분야에서 구체적인 우위를 입증함.
- Fable은 곧 Box AI Studio를 통해 에이전트 구축에 활용될 예정임.
Fable은 코딩(및 관련) 작업을 포함하여 전반적인 역량에서 엄청난 도약을 보여주고 있습니다. 또한 복잡한 지식 노동 작업에서도 정확도와 성공률이 크게 향상되었습니다.
저희 Box AI Complex Work Eval에서는 모델을 Opus 4.8과 비교 테스트했으며, 거의 모든 산업 분야에서 큰 성능 향상을 확인했습니다. 저희 평가를 위해 Fable을 사용하는 Box AI Agent에게 기업 문서를 다루는 일련의 까다로운 실제 지식 노동 문제를 제공한 다음, 에이전트가 작업을 수행하는 정도를 점수화합니다.
Fable과 Opus 4.8의 주요 차별점은 복잡한 추론 과정에서 요령을 피우지 않고, 다단계 계산을 정확하게 처리하며, 실행 간 일관성이 훨씬 높다는 것입니다. 저희는 미디어 및 엔터테인먼트(78% 대 61%), 기술(81% 대 73%), 금융 서비스(89% 대 83%), 그리고 헬스케어(66% 대 60%)에서 가장 큰 도약을 확인했습니다.
다음은 몇 가지 구체적인 예시입니다:
-
법률 M&A 실사: 반도체 회사의 계약 정책과 NDA(비밀유지협약) 조건을 검토하는 작업에서, Fable은 공동 소유권 조항이 배타적 요구 사항을 위반하지만 슈퍼 캡(Super Cap) 예외 하에서는 책임 한도가 허용된다는 것을 올바르게 식별했습니다. Fable은 100%를 기록했고 Opus는 78%였습니다.
-
헬스케어: 12개 보고서에 걸친 임상 방사선 오류 감사에서, Fable은 각 오류를 심각도 등급별로 정확하게 분류하고 Grade 3 오류가 존재하지 않는다고 올바르게 결론지었습니다. Opus는 증거가 이를 뒷받침하지 않았음에도 불구하고 사례를
-
리테일 분석 (Retail analytics): 높은 성장률을 보이는 제품 기사를 투자 벤치마크와 비교 분석하는 작업에서, Fable은 각 기사의 성장률을 개별적으로 정확하게 계산하고 5개 중 단지 2개만이 임계값을 초과했다는 것을 식별했습니다. Opus는 '평균 대비 높은 성장'을 '벤치마크 이상'으로 혼동하여 점수화했으며, 이는 Fable의 94%에 비해 61%였습니다.
-
금융 서비스 (Financial Services): 5년 만기 부채 시설(debt facility) 예측 작업에서, Fable은 개시 잔액(opening balances)에 이자를 정확하게 적용하고 올바른 자본 지출(capex) 수치를 사용했습니다. Opus는 전체 시설 금액에 이자를 적용하고 잘못된 기준(base)으로 세금을 계산하는 등 두 가지 복리 오류를 범했습니다. Fable은 83%의 점수를 받은 반면, Opus는 62%였습니다.
-
기술 (Technology): 여러 지역에 걸쳐 기능 가치 지수(Feature Value Index)를 계산해야 하는 SaaS 기능 평가 작업에서, Fable은 공식을 정확하게 적용하여 각 시장에 대한 정확한 값을 얻었습니다. Opus는 여러 기준에서 산술적인 오류를 범했습니다. Fable은 100%의 점수를 받은 반면, Opus는 74%였습니다.
전반적으로, 복잡한 분석, 분석적 추론(analytical reasoning), 그리고 깊은 도메인 이해가 필요한 작업에서 엄청난 성능 향상을 보여주었습니다. Fable은 곧 Box AI Studio에서 고객들이 에이전트(agents)를 구축할 수 있도록 제공될 예정입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X 토픽: Benchmark의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기