본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 19. 11:20

에이전트 기반 지식 노동의 차세대 벤치마크, AA-Briefcase 발표

요약

에이전트 기반 지식 노동의 성능을 평가하기 위한 차세대 벤치마크인 AA-Briefcase가 발표되었습니다. 이 벤치마크는 수천 개의 파편화된 데이터와 장기적인 프로젝트 맥락을 통해 모델의 실제 업무 수행 능력을 테스트합니다.

핵심 포인트

  • 장기적 지식 노동(long-horizon knowledge work) 평가에 특화된 벤치마크
  • Claude Fable 5가 Elo 점수 1587점으로 현재 선두 기록
  • 수천 개의 입력 소스와 복잡한 조직적 맥락을 포함한 현실적 시나리오 제공
  • 정확성 체크와 쌍체 비교 평가를 결합한 복합 루브릭 방식 채택

에이전트 기반 지식 노동 (agentic knowledge work)의 차세대 벤치마크인 AA-Briefcase를 발표합니다.

AA-Briefcase는 산업 전문가들이 구축한 복잡한 프로젝트 내에서 장기적 지식 노동 (long-horizon knowledge work) 과업에 대한 모델의 성능을 테스트하기 위한 새로운 벤치마크입니다. 모델들은 수많은 연결된 과업과 수천 개의 입력 소스 파일이 포함된 수 주 단위의 프로젝트를 통해 평가됩니다.

저희는 사용이 불가능해지기 전의 @AnthropicAI의 Claude Fable 5를 평가했으며, 이 모델은 현재 1587점의 Elo 점수로 선두를 달리고 있습니다. 그 뒤를 이어 Claude Opus 4.8 (max, 1356), Opus 4.7, 그리고 최근 출시된 @Zai_org의 GLM 5.2 (max, 1266)가 뒤를 잇고 있습니다.

Claude Fable 5는 각 AA-Briefcase 과업을 실행하는 데 평균 31달러가 소요되었으며, Claude Opus 4.8은 10.40달러, GPT-5.5 (xhigh)는 3.68달러, GLM-5.2 (max)는 2.40달러가 소요되었습니다.

AA-Briefcase는 현실적인 조직 맥락 내에서 설정된 수 주 단위의 지식 노동 프로젝트를 나타내는 4개의 비공개 시나리오로 구성됩니다. 시나리오 구조, 제출 및 채점 방식을 보여주기 위한 다섯 번째 공개 시나리오(AA-Briefcase Lite)가 @huggingface를 통해 공개되었습니다. 이는 공식 AA-Briefcase 결과에는 포함되지 않으며, 시연용으로만 제공됩니다.

AA-Briefcase의 핵심 요소:

➤ 현실적인 장기 프로젝트 (Realistic long-horizon projects): AA-Briefcase는 단일하고 단절된 프롬프트를 넘어, 일관된 장기 프로젝트 전반에 걸쳐 모델을 평가함으로써 이를 초월합니다. 과업은 주 단위로 구축되며, 공유된 조직적 맥락을 활용하고, 재무 모델, 이사회 발표 자료, 디자인 목업(design mock-ups)과 같은 결과물을 요구합니다.

➤ 대규모의 파편화된 맥락 (Large volumes of fragmented context): AA-Briefcase는 모델이 기업 문서, 회의록, 대규모 데이터 내보내기, 25,000개 이상의 Slack 메시지 및 3,500개 이상의 이메일을 포함한 수천 개의 입력을 바탕으로 추론할 것을 요구합니다. 이러한 소스들은 파편화되어 있고 무질서하며, 종종 현실적인 모순을 포함하고 있어, 모델이 실제 지식 노동의 모호함을 탐색할 수 있는지 테스트합니다.

➤ 복합 루브릭 (Composite rubric) 및 쌍체 비교 평가 (Pairwise grading): AA-Briefcase는 정답의 정확성(ground-truth correctness)을 확인하는 이진 루브릭 체크 (binary rubric checks)와 분석 품질 및 표현 품질에 대한 쌍체 비교 평가 (pairwise grading)를 결합합니다. 단일 지표에 집중하는 많은 평가 방식과 달리, AA-Briefcase는 에이전트 역량 (agentic capabilities)을 더욱 포괄적으로 테스트하여, 모델이 겉보기에는 세련되어 보이지만 실제로는 틀렸거나 분석적 엄밀함 (analytical rigor)이 부족한 결과물을 생성하는 사례를 드러냅니다.

➤ 업계 전문가들에 의한 구축: AA-Briefcase의 시나리오는 실제 지식 노동 (knowledge work)을 반영합니다. 이 작업들은 Google, McKinsey & Company, BCG를 포함한 기업의 데이터 과학 (data science), 제품 관리 (product management), 기업 전략 (corporate strategy) 분야 전문가들이 수개월에 걸쳐 개발했습니다. 과제들의 도전 과제는 전문적인 경험에서 도출되었으며, 이를 통해 AA-Briefcase는 실제 지식 노동을 정의하는 모호함, 무질서한 맥락 (messy context), 그리고 상충하는 우선순위 (competing priorities)를 더욱 잘 반영합니다.

주요 결과:

➤ Claude Fable 5, 1587 Elo로 AA-Briefcase 선두: 그 뒤를 이어 Claude Opus 4.8 (1356)이 위치하며, Anthropic 이외의 모델 중 가장 우수한 모델은 약 90점 차이인 1266점을 기록한 GLM-5.2 (max)입니다. Claude Fable 5는 AA-Briefcase의 어떤 작업에서도 Opus 4.8 폴백 (fallback)을 사용하지 않았다는 점에 유의하십시오.

➤ 테스트된 모델 간 작업당 비용 약 800배 차이: Claude Fable 5가 벤치마크를 선도하지만, 작업당 평균 비용은 $31 이상인 반면, DeepSeek V4 Flash (max)는 약 $0.04입니다. 가장 강력한 가성비 (price/performance) 옵션은 GLM-5.2 (max) 및 DeepSeek V4 Pro (max)와 같은 오픈 웨이트 (open weights) 모델이며, 특히 GLM-5.2 (max)는 비용이 25% 미만임에도 불구하고 Claude Opus 4.8 (max)보다 Elo 점수가 약 90점 낮을 뿐입니다.

➤ 모델들에게 여전히 어려운 현실 세계의 복잡성: 최고 성능 모델인 Claude Fable 5조차 AA-Briefcase 작업의 단 3%에서만 모든 루브릭 기준을 충족했습니다. 91개의 작업 중 31개 작업에서는 어떤 모델도 루브릭 기준에서 50% 이상의 점수를 얻지 못했습니다.

➤ 작업 난이도는 요구되는 입력 파일의 수에 따라 증가합니다: 각 루브릭(rubric) 체크 항목에 대해, 통과에 필요한 소스 파일(source files) 세트를 식별합니다. 모든 모델에 걸쳐, 이 파일의 수가 증가함에 따라 통과율(pass rates)이 하락하지만, 최상위 모델(top-tier models)은 성능 저하가 약한 모델(weaker models)보다 덜 나타납니다.

더 자세한 내용은 아래 스레드에서 확인하세요 ⬇️

AI 자동 생성 콘텐츠

본 콘텐츠는 X 토픽: Claude/Anthropic의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0