
최신 AI 에이전트의 '직무 수행 가능성'에 대한 검증, Agents' Last Exam (ALE) 공개
요약
최신 AI 에이전트의 실제 직무 수행 능력을 검증하기 위해 'Agents' Last Exam (ALE)'이라는 새로운 벤치마크가 공개되었습니다. ALE는 55개 직업에 걸쳐 1,500개 이상의 과제로 구성되어 최첨단 모델들을 평가했습니다. 결과적으로, 현재 에이전트들은 일부 작업을 수행할 수 있으나, 지속적인 추론이나 깊은 도메인 전문 지식이 필요한 어려운 작업에서는 인간 수준의 성능과는 거리가 멀다는 것이 밝혀졌습니다.
핵심 포인트
- ALE는 55개 직업에 걸친 1,500개 이상의 과제로 구성된 새로운 에이전트 벤치마크입니다.
- 최첨단 에이전트들은 일부 전문 작업을 해결할 수 있으나 한계가 명확합니다.
- 지속적인 추론과 깊은 도메인 지식이 필요한 어려운 작업에서는 성공률이 매우 낮습니다.
- ALE는 향후 직무 수행 가능한 AI 에이전트를 위한 중요한 평가 기준(북극성)이 될 것입니다.
모두가 최신 AI 에이전트들이 곧 '직무 수행 가능(job-ready)'할 것이라고 말합니다. 특히 이번 주 Fable 5 출시 이후 더욱 그렇습니다. 하지만 과연 그럴까요?
지난 몇 달 동안, 저희 그룹과 협력자들은 실제 디지털 노동 시장의 업무를 통해 바로 이 주장을 테스트하도록 설계된 벤치마크인 Agents' Last Exam (ALE)을 구축해 왔습니다.
저희 그룹과 협력자들은 그동안 MMLU, MATH, CyberGym, ExploitGym 등 해당 분야에서 사용되는 많은 벤치마크를 만들어왔습니다. 오늘 저는 AI 에이전트가 광범위한 실제 영역에 걸쳐 실제로 경제적으로 가치 있는 작업을 수행할 수 있는지 측정하는 순환형 벤치마크인 Agents' Last Exam (ALE)을 공유하게 되어 기쁩니다.
ALE를 통해 저희는 Fable 5, GPT-5.5, Composer 2.5 및 기타 최첨단 에이전트 시스템들을 55개 직업에 걸친 1,500개 이상의 전문가가 출처한 과제들로 평가했습니다.
결과는 인상적이면서도 냉정합니다.
오늘날의 에이전트들은 전문적인 작업 중 의미 있는 일부를 해결할 수 있습니다. 하지만 지속적인 추론(sustained reasoning), 깊은 도메인 전문 지식(deep domain expertise) 및 장기간에 걸친 신뢰할 수 있는 실행을 요구하는 가장 어려운 과제들을 살펴보면, 여전히 인간 수준의 성능과는 거리가 멉니다.
ALE의 가장 어려운 등급에서, 저희가 테스트한 Fable 5를 포함한 모든 최첨단 에이전트들은 0%의 성공률을 기록했습니다.
유용한 에이전트 시대는 왔습니다.
하지만 진정으로 직무 수행 가능한 에이전트의 시대는 아직 오지 않았습니다.
저희는 Agents' Last Exam (ALE)이 광범위한 영역에 걸쳐 경제적으로 가치 있는 작업을 신뢰성 있게 수행할 수 있는 에이전트를 개발하는 데 있어 새로운 지표이자 북극성이 되기를 바랍니다.
🧵
AI 자동 생성 콘텐츠
본 콘텐츠는 X 토픽: Benchmark의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기