본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 10. 14:39

에이전트의 마지막 시험 (Agents' Last Exam)

요약

UC Berkeley RDI가 개발한 'Agents' Last Exam'은 55개 산업 분야의 전문 과업을 다루는 벤치마크입니다. 최첨단 에이전트들도 고난도 과업 통과율이 2.6%에 불과할 정도로 매우 높은 난이도를 자랑합니다.

핵심 포인트

  • 55개 산업 분야 및 1,500개 이상의 전문 과업 포함
  • 최첨단 에이전트의 한계를 시험하는 고난도 벤치마크
  • 전문가가 직접 제작한 실무 중심의 과업 구성

UC Berkeley RDI가 주도하는 이 살아있는 벤치마크 (benchmark)는 55개 산업 분야와 전문가가 직접 제작한 1,500개 이상의 전문적인 과업 (tasks)을 아우릅니다. 최첨단 에이전트 (Frontier agents)조차 가장 어려운 단계의 과업은 단 2.6%만을 통과합니다.

당신의 에이전트를 제출하세요:

논문 (Paper):
https://paperswithcode.co/paper/2606.05405

프로젝트 (Project):
https://agents-last-exam.org
코드 (Code):
https://github.com/rdi-berkeley/agents-last-exam

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0