본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 10. 13:49

“2026–2027년까지 AI 에이전트가 거의 모든 직업에서 인간을 능가할 것이다.” - 이 예측은 어디에나 있습니다.

요약

AI 에이전트의 실제 업무 수행 능력을 측정하기 위한 새로운 벤치마크인 Agents' Last Exam(ALE)을 소개합니다. 55개 산업 분야의 실제 프로젝트를 기반으로 하며, 현재 상위 에이전트들의 통과율은 매우 낮은 수준임을 보여줍니다.

핵심 포인트

  • 실제 산업 프로젝트 기반의 재현 가능한 벤치마크 ALE 공개
  • 55개 산업 도메인 및 1,500개 이상의 작업 포함
  • 상위 티어 에이전트의 통과율은 2.6%로 매우 낮음
  • GUI와 CLI를 모두 사용하는 범용 컴퓨터 사용 에이전트(GCUA) 대상

“2026–2027년까지 AI 에이전트가 거의 모든 직업에서 인간을 능가할 것이다.” - 이 예측은 어디에나 있습니다.
그래서 우리는 실제 노동 시장과 정렬된 업무를 통해 그 주장을 테스트할 시험을 만들었습니다. 가장 어려운 티어(tier)에서 상위 에이전트의 통과율은 2.6%에 불과합니다.
에이전트가 실제로 실제 업무를 수행할 수 있는지 측정하는 순환형 벤치마크(benchmark)인 Agents' Last Exam (ALE)를 소개합니다.

1/ 작업(task)은 어디에서 오는가?

모든 작업은 인간 전문가가 이미 완료하여 출시한 실제 프로젝트이며, 이를 코드 채점 방식의 테스트로 변환했습니다.

단순한 느낌(vibes)이나 인간 심사위원 없이, 완전히 재현 가능합니다. 55개의 비물리적 산업 분야를 아우르며, O*NET / SOC 2018(미국 연방 직업 분류)에 기반을 두고 있습니다.

2/ 어떤 에이전트가 선두를 달리고 있는가?

현재 포디움(podium) (harness + 플래그십 모델):
Codex (gpt-5-5)
Cursor (composer-2-5)
Claude Code (opus-4-8)

자세한 내용은 다음에서 확인하세요:
https://agents-last-exam.org/leaderboard

리더보드(leaderboard)를 넘어, 상위 성능을 내는 에이전트들이 어디에서 다르게 수행하는지? 전체 분석이 곧 공개됩니다.

3/ ALE는 기존 에이전트 벤치마크와 어떻게 비교되는가?

오늘날의 에이전트 벤치마크는 빠르게 포화되고 있습니다. ALE는 지도의 다른 영역에 위치합니다:

• 55개 산업 도메인(domain)
• 1,500개 이상의 작업(task)
• GUI와 CLI를 모두 아우르는 작업

최상위 에이전트의 전체 통과율은 단 26%이며, 상위 티어는 2.6%에 불과합니다.

4/ 왜 이를 "Last Exam(마지막 시험)"이라고 부르는가?

에이전트가 ALE를 포화시키는 날이 바로 그들이 실제로 실제 산업을 구동할 수 있는 날이기 때문입니다.

그날은 오늘이 아닙니다. 하지만 측정하고 최적화할 가치가 있는 날입니다.

5/ 우리는 어떤 종류의 에이전트에 집중하는가?

우리는 범용 컴퓨터 사용 에이전트(Generalist Computer-Use Agent, GCUA)에게 전체 접근 권한, GUI 및 CLI를 제공합니다. 우리는 에이전트가 작업을 해결하는 방식을 제한하지 않습니다.
인간이 컴퓨터에서 할 수 있는 것이라면 무엇이든 에이전트는 자유롭게 할 수 있습니다: 클릭, 타이핑, 스크립트 작성, 브라우징, 자동화.

그것은

6/ ALE에서 당신의 에이전트를 테스트해 보세요 →
웹사이트:
http://agents-last-exam.org
작업 샘플:
http://agents-last-exam.org/demo
논문:
https://arxiv.org/abs/2606.05405
HuggingFace:
https://huggingface.co/datasets/agents-last-exam/agents-last-exam

코드:
http://github.com/rdi-berkeley/agents-last-exam

AI 자동 생성 콘텐츠

본 콘텐츠는 X 토픽: Benchmark의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0