에이전트 기반 지식 노동의 차세대 벤치마크, AA-Briefcase 발표

요약

에이전트 기반 지식 노동의 성능을 평가하기 위한 차세대 벤치마크인 AA-Briefcase가 발표되었습니다. 이 벤치마크는 수천 개의 파편화된 데이터와 장기적인 프로젝트 맥락을 통해 모델의 실제 업무 수행 능력을 테스트합니다.

핵심 포인트

장기적 지식 노동(long-horizon knowledge work) 평가에 특화된 벤치마크
Claude Fable 5가 Elo 점수 1587점으로 현재 선두 기록
수천 개의 입력 소스와 복잡한 조직적 맥락을 포함한 현실적 시나리오 제공
정확성 체크와 쌍체 비교 평가를 결합한 복합 루브릭 방식 채택

에이전트 기반 지식 노동 (agentic knowledge work)의 차세대 벤치마크인 AA-Briefcase를 발표합니다.

AA-Briefcase는 산업 전문가들이 구축한 복잡한 프로젝트 내에서 장기적 지식 노동 (long-horizon knowledge work) 과업에 대한 모델의 성능을 테스트하기 위한 새로운 벤치마크입니다. 모델들은 수많은 연결된 과업과 수천 개의 입력 소스 파일이 포함된 수 주 단위의 프로젝트를 통해 평가됩니다.

저희는 사용이 불가능해지기 전의 @AnthropicAI의 Claude Fable 5를 평가했으며, 이 모델은 현재 1587점의 Elo 점수로 선두를 달리고 있습니다. 그 뒤를 이어 Claude Opus 4.8 (max, 1356), Opus 4.7, 그리고 최근 출시된 @Zai_org의 GLM 5.2 (max, 1266)가 뒤를 잇고 있습니다.

Claude Fable 5는 각 AA-Briefcase 과업을 실행하는 데 평균 31달러가 소요되었으며, Claude Opus 4.8은 10.40달러, GPT-5.5 (xhigh)는 3.68달러, GLM-5.2 (max)는 2.40달러가 소요되었습니다.

AA-Briefcase는 현실적인 조직 맥락 내에서 설정된 수 주 단위의 지식 노동 프로젝트를 나타내는 4개의 비공개 시나리오로 구성됩니다. 시나리오 구조, 제출 및 채점 방식을 보여주기 위한 다섯 번째 공개 시나리오(AA-Briefcase Lite)가 @huggingface를 통해 공개되었습니다. 이는 공식 AA-Briefcase 결과에는 포함되지 않으며, 시연용으로만 제공됩니다.

AA-Briefcase의 핵심 요소:

➤ 현실적인 장기 프로젝트 (Realistic long-horizon projects): AA-Briefcase는 단일하고 단절된 프롬프트를 넘어, 일관된 장기 프로젝트 전반에 걸쳐 모델을 평가함으로써 이를 초월합니다. 과업은 주 단위로 구축되며, 공유된 조직적 맥락을 활용하고, 재무 모델, 이사회 발표 자료, 디자인 목업(design mock-ups)과 같은 결과물을 요구합니다.

➤ 대규모의 파편화된 맥락 (Large volumes of fragmented context): AA-Briefcase는 모델이 기업 문서, 회의록, 대규모 데이터 내보내기, 25,000개 이상의 Slack 메시지 및 3,500개 이상의 이메일을 포함한 수천 개의 입력을 바탕으로 추론할 것을 요구합니다. 이러한 소스들은 파편화되어 있고 무질서하며, 종종 현실적인 모순을 포함하고 있어, 모델이 실제 지식 노동의 모호함을 탐색할 수 있는지 테스트합니다.

➤ 복합 루브릭 (Composite rubric) 및 쌍체 비교 평가 (Pairwise grading): AA-Briefcase는 정답의 정확성(ground-truth correctness)을 확인하는 이진 루브릭 체크 (binary rubric checks)와 분석 품질 및 표현 품질에 대한 쌍체 비교 평가 (pairwise grading)를 결합합니다. 단일 지표에 집중하는 많은 평가 방식과 달리, AA-Briefcase는 에이전트 역량 (agentic capabilities)을 더욱 포괄적으로 테스트하여, 모델이 겉보기에는 세련되어 보이지만 실제로는 틀렸거나 분석적 엄밀함 (analytical rigor)이 부족한 결과물을 생성하는 사례를 드러냅니다.

➤ 업계 전문가들에 의한 구축: AA-Briefcase의 시나리오는 실제 지식 노동 (knowledge work)을 반영합니다. 이 작업들은 Google, McKinsey & Company, BCG를 포함한 기업의 데이터 과학 (data science), 제품 관리 (product management), 기업 전략 (corporate strategy) 분야 전문가들이 수개월에 걸쳐 개발했습니다. 과제들의 도전 과제는 전문적인 경험에서 도출되었으며, 이를 통해 AA-Briefcase는 실제 지식 노동을 정의하는 모호함, 무질서한 맥락 (messy context), 그리고 상충하는 우선순위 (competing priorities)를 더욱 잘 반영합니다.

주요 결과:

➤ Claude Fable 5, 1587 Elo로 AA-Briefcase 선두: 그 뒤를 이어 Claude Opus 4.8 (1356)이 위치하며, Anthropic 이외의 모델 중 가장 우수한 모델은 약 90점 차이인 1266점을 기록한 GLM-5.2 (max)입니다. Claude Fable 5는 AA-Briefcase의 어떤 작업에서도 Opus 4.8 폴백 (fallback)을 사용하지 않았다는 점에 유의하십시오.

➤ 테스트된 모델 간 작업당 비용 약 800배 차이: Claude Fable 5가 벤치마크를 선도하지만, 작업당 평균 비용은 $31 이상인 반면, DeepSeek V4 Flash (max)는 약 $0.04입니다. 가장 강력한 가성비 (price/performance) 옵션은 GLM-5.2 (max) 및 DeepSeek V4 Pro (max)와 같은 오픈 웨이트 (open weights) 모델이며, 특히 GLM-5.2 (max)는 비용이 25% 미만임에도 불구하고 Claude Opus 4.8 (max)보다 Elo 점수가 약 90점 낮을 뿐입니다.

➤ 모델들에게 여전히 어려운 현실 세계의 복잡성: 최고 성능 모델인 Claude Fable 5조차 AA-Briefcase 작업의 단 3%에서만 모든 루브릭 기준을 충족했습니다. 91개의 작업 중 31개 작업에서는 어떤 모델도 루브릭 기준에서 50% 이상의 점수를 얻지 못했습니다.

➤ 작업 난이도는 요구되는 입력 파일의 수에 따라 증가합니다: 각 루브릭(rubric) 체크 항목에 대해, 통과에 필요한 소스 파일(source files) 세트를 식별합니다. 모든 모델에 걸쳐, 이 파일의 수가 증가함에 따라 통과율(pass rates)이 하락하지만, 최상위 모델(top-tier models)은 성능 저하가 약한 모델(weaker models)보다 덜 나타납니다.

더 자세한 내용은 아래 스레드에서 확인하세요 ⬇️

AI 자동 생성 콘텐츠

원문 바로가기

에이전트 기반 지식 노동의 차세대 벤치마크, AA-Briefcase 발표

요약

핵심 포인트

댓글