AI 거물들, UC Berkeley 주도 테스트에서 25% 미만 점수 기록
요약
UC Berkeley 연구진이 50개 이상의 산업 분야를 대상으로 AI 에이전트의 능력을 평가하는 새로운 벤치마크 'Agents’ Last Exam'을 발표했습니다. 테스트 결과 OpenAI의 GPT-5.5가 가장 높은 점수를 기록했으나, 전체 모델의 통과율은 25% 미만에 그쳤습니다.
핵심 포인트
- UC Berkeley 주도의 새로운 AI 에이전트 벤치마크 발표
- GPT-5.5가 가장 높은 성적을 거두었으나 통과율은 24%에 불과
- Claude Fable 5, Gemini, DeepSeek 등 주요 모델들의 낮은 통과율 확인
- 오디오 처리부터 이론 물리학까지 광범위한 산업 과제 포함
300명 이상의 산업 전문가들과 협력하여, UC Berkeley 연구진은 50개 이상의 산업 분야에서 AI 능력을 테스트하는 새로운 벤치마크(benchmark)를 발표했습니다. 테스트된 모델 중 OpenAI의 GPT-5.5가 가장 높은 점수를 기록했으나, 통과율은 24%에 불과했습니다.
'Agents’ Last Exam'이라 명명된 이 벤치마크는 Berkeley Center for Responsible, Decentralized Intelligence가 주도합니다. 이 시험은 오디오 처리(audio processing)부터 이론 물리학(theoretical physics)에 이르기까지 다양한 주제를 아우르는 과제를 부여합니다.
경쟁 모델인 Anthropic의 Claude Fable 5는 전체 통과율 22%로 GPT-5.5의 뒤를 이었으며, Google Gemini, DeepSeek, Grok은 모두 16% 미만의 점수를 기록했습니다. 통과율(Pass rates)은 AI 에이전트(AI agent)가 모든 과제에서 만점을 받은 실행 횟수를 측정합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기