본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 16. 11:27

Artificial Analysis Intelligence Index v4.1 발표: 에이전트 중심 워크로드(agentic

요약

Artificial Analysis가 에이전트 중심 워크로드에 최적화된 Intelligence Index v4.1을 발표했습니다. 벤치마크 항목을 업그레이드하고 작업당 비용, 시간, 토큰 등 새로운 지표를 도입하여 모델의 실질적인 성능을 평가합니다.

핵심 포인트

  • 에이전트 중심 작업(agentic tasks)을 위한 벤치마크 업그레이드 및 가중치 재조정
  • 작업당 비용, 시간, 토큰 사용량 등 새로운 작업별 지표 도입
  • 캐시된 입력 토큰 보고를 통한 실제 실행 비용 반영 강화
  • Claude Opus 4.8이 현재 이용 가능한 모델 중 가장 높은 지능 기록

Artificial Analysis Intelligence Index v4.1 발표: 에이전트 중심 워크로드(agentic workloads)로의 전환, 업그레이드된 벤치마크 및 새로운 작업별 지표 포함

Artificial Analysis Intelligence Index는 모델의 지능을 평가하고 AI의 발전을 추적하기 위한 우리의 종합 지표(synthesis metric)입니다. v4.1은 에이전트 중심 워크로드(agentic workloads)로의 더 광범위한 전환을 나타내며, 세 가지 주요 변화를 포함합니다:

에이전트 중심 작업(agentic tasks)을 향한 평가 업데이트 및 가중치 재조정:

  1. 세 가지 평가 항목을 업그레이드하고, 하나를 제거했으며, Intelligence Index의 가중치를 재조정했습니다:
    ➤ Terminal-Bench Hard를 Terminal-Bench 2.1로, τ²-Bench Telecom을 τ³-Bench Banking으로 업그레이드했습니다. 두 항목 모두 프런티어 모델(frontier models)을 더 잘 구분할 수 있는, 더 어렵고 현실적인 에이전트 시나리오를 포함한 최신 버전의 더 강력한 작업 세트로 이동합니다.
    ➤ GDPval-AA를 GDPval-AA v2로 업그레이드했습니다. 이 업그레이드는 Elo를 인간의 성능인 1000으로 재설정(re-baselines)하고, 프런티어 모델 판정단(frontier-model judges)의 순환 패널을 도입하며, 더 긴 지평의 에이전트 궤적(agent trajectories)을 위해 턴 제한(turn limit)을 100에서 250으로 상향했습니다.
    ➤ IFBench는 포화(saturation)로 인해 제거되었습니다. 해당 벤치마크는 더 이상 프런티어 모델을 충분히 구분하지 못하므로, Intelligence Index에서 제거했습니다. 우리는 계속해서 이를 실행하고 새로운 모델 출시 시 결과를 발표할 것입니다.

  2. 작업당 비용(Cost per Task), 작업당 시간(Time per Task), 작업당 토큰(Tokens per Task):
    모든 모델에 대해 보고되는 Intelligence Index를 기반으로 한 세 가지 새로운 작업별 지표(per-task metrics)입니다. 모델이 Intelligence Index를 실행하는 데 드는 총 비용, 총 시간, 총 출력 토큰(output tokens)을 평가 전반에 걸친 작업 수로 나누어, 단일 Intelligence Index 작업을 완료하는 데 드는 평균 비용, 시간 및 출력 토큰을 산출합니다.

  3. 캐시된 입력 토큰(Cached input token) 보고:
    이제 각 모델을 실행하는 실제 비용을 더 잘 반영하기 위해, Intelligence Index 실행 비용을 포함하여 캐시된 입력 토큰과 그것이 비용에 미치는 영향을 보고합니다.

주요 결과:
➤ 선두 모델: Claude Fable 5 (Opus 4.8 폴백 포함, 60)가 Artificial Analysis Intelligence Index v4.1에서 4점 차이로 앞서고 있으나 현재 이용 불가능하며, 이에 따라 Claude Opus 4.8 (max, 56)이 GPT-5.5 (xhigh, 55)를 앞서며 현재 이용 가능한 가장 지능적인 모델로 남았습니다. ➤ 오픈 웨이트 (Open weights) 선두 모델: 오픈 웨이트 모델 중에서는 DeepSeek V4 Pro (max, 44)와 MiniMax M3 (44)가 앞서고 있으며, Kimi K2.6 (43)과 MiMo-V2.5-Pro (42)가 그 뒤를 잇고 있습니다.
➤ 작업당 비용 (Cost per Task): Claude Opus 4.8 (max)는 작업당 $1.78로 이용 가능한 모델 중 가장 비싸며, Claude Fable 5는 전체에서 가장 높은 $3.25를 기록했습니다. GPT-5.5 (xhigh)는 작업당 $0.99로 Intelligence Index에서 Opus 4.8과 1점 차이의 점수를 기록했습니다. DeepSeek V4 Pro (max)는 지능 대비 작업당 비용 (Intelligence vs Cost per Task) 차트에서 작업당 $0.04로 독보적인 모습을 보였으며, 다른 선두권 폐쇄형 (proprietary) 모델들은 이보다 20배에서 45배 더 높은 비용이 발생합니다.
➤ 작업당 시간 (Time per Task): 작업당 시간 (추론 디코딩 시간, inference decode time)은 Grok 4.3 (high)의 1.5분부터 Claude Sonnet 4.6 (max)의 13.5분까지 약 9배의 차이를 보입니다. Claude Opus 4.8 (max)는 작업을 완료하는 데 6.4분이 소요되고 GPT-5.5 (xhigh)는 3.7분이 소요되는 반면, Gemini 3.1 Pro Preview는 지능 대비 작업당 시간 (Intelligence vs Time per Task) 차트에서 46점의 점수로 1.6분을 기록하며 눈에 띄는 성과를 보였습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 X 토픽: Benchmark의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0