Reddit요약2026. 06. 17. 22:18

AI 거물들, UC Berkeley 주도 테스트에서 25% 미만 점수 기록

요약

UC Berkeley 연구진이 50개 이상의 산업 분야를 대상으로 AI 에이전트의 능력을 평가하는 새로운 벤치마크 'Agents’ Last Exam'을 발표했습니다. 테스트 결과 OpenAI의 GPT-5.5가 가장 높은 점수를 기록했으나, 전체 모델의 통과율은 25% 미만에 그쳤습니다.

핵심 포인트

UC Berkeley 주도의 새로운 AI 에이전트 벤치마크 발표
GPT-5.5가 가장 높은 성적을 거두었으나 통과율은 24%에 불과
Claude Fable 5, Gemini, DeepSeek 등 주요 모델들의 낮은 통과율 확인
오디오 처리부터 이론 물리학까지 광범위한 산업 과제 포함

300명 이상의 산업 전문가들과 협력하여, UC Berkeley 연구진은 50개 이상의 산업 분야에서 AI 능력을 테스트하는 새로운 벤치마크(benchmark)를 발표했습니다. 테스트된 모델 중 OpenAI의 GPT-5.5가 가장 높은 점수를 기록했으나, 통과율은 24%에 불과했습니다.

'Agents’ Last Exam'이라 명명된 이 벤치마크는 Berkeley Center for Responsible, Decentralized Intelligence가 주도합니다. 이 시험은 오디오 처리(audio processing)부터 이론 물리학(theoretical physics)에 이르기까지 다양한 주제를 아우르는 과제를 부여합니다.

경쟁 모델인 Anthropic의 Claude Fable 5는 전체 통과율 22%로 GPT-5.5의 뒤를 이었으며, Google Gemini, DeepSeek, Grok은 모두 16% 미만의 점수를 기록했습니다. 통과율(Pass rates)은 AI 에이전트(AI agent)가 모든 과제에서 만점을 받은 실행 횟수를 측정합니다.

AI 자동 생성 콘텐츠

원문 바로가기

AI 거물들, UC Berkeley 주도 테스트에서 25% 미만 점수 기록

요약

핵심 포인트

댓글