Artificial Analysis Intelligence Index v4.1 발표: 에이전트 중심 워크로드(agentic

요약

Artificial Analysis가 에이전트 중심 워크로드에 최적화된 Intelligence Index v4.1을 발표했습니다. 벤치마크 항목을 업그레이드하고 작업당 비용, 시간, 토큰 등 새로운 지표를 도입하여 모델의 실질적인 성능을 평가합니다.

핵심 포인트

에이전트 중심 작업(agentic tasks)을 위한 벤치마크 업그레이드 및 가중치 재조정
작업당 비용, 시간, 토큰 사용량 등 새로운 작업별 지표 도입
캐시된 입력 토큰 보고를 통한 실제 실행 비용 반영 강화
Claude Opus 4.8이 현재 이용 가능한 모델 중 가장 높은 지능 기록

Artificial Analysis Intelligence Index v4.1 발표: 에이전트 중심 워크로드(agentic workloads)로의 전환, 업그레이드된 벤치마크 및 새로운 작업별 지표 포함

Artificial Analysis Intelligence Index는 모델의 지능을 평가하고 AI의 발전을 추적하기 위한 우리의 종합 지표(synthesis metric)입니다. v4.1은 에이전트 중심 워크로드(agentic workloads)로의 더 광범위한 전환을 나타내며, 세 가지 주요 변화를 포함합니다:

에이전트 중심 작업(agentic tasks)을 향한 평가 업데이트 및 가중치 재조정:

세 가지 평가 항목을 업그레이드하고, 하나를 제거했으며, Intelligence Index의 가중치를 재조정했습니다:
➤ Terminal-Bench Hard를 Terminal-Bench 2.1로, τ²-Bench Telecom을 τ³-Bench Banking으로 업그레이드했습니다. 두 항목 모두 프런티어 모델(frontier models)을 더 잘 구분할 수 있는, 더 어렵고 현실적인 에이전트 시나리오를 포함한 최신 버전의 더 강력한 작업 세트로 이동합니다.
➤ GDPval-AA를 GDPval-AA v2로 업그레이드했습니다. 이 업그레이드는 Elo를 인간의 성능인 1000으로 재설정(re-baselines)하고, 프런티어 모델 판정단(frontier-model judges)의 순환 패널을 도입하며, 더 긴 지평의 에이전트 궤적(agent trajectories)을 위해 턴 제한(turn limit)을 100에서 250으로 상향했습니다.
➤ IFBench는 포화(saturation)로 인해 제거되었습니다. 해당 벤치마크는 더 이상 프런티어 모델을 충분히 구분하지 못하므로, Intelligence Index에서 제거했습니다. 우리는 계속해서 이를 실행하고 새로운 모델 출시 시 결과를 발표할 것입니다.
작업당 비용(Cost per Task), 작업당 시간(Time per Task), 작업당 토큰(Tokens per Task):
모든 모델에 대해 보고되는 Intelligence Index를 기반으로 한 세 가지 새로운 작업별 지표(per-task metrics)입니다. 모델이 Intelligence Index를 실행하는 데 드는 총 비용, 총 시간, 총 출력 토큰(output tokens)을 평가 전반에 걸친 작업 수로 나누어, 단일 Intelligence Index 작업을 완료하는 데 드는 평균 비용, 시간 및 출력 토큰을 산출합니다.
캐시된 입력 토큰(Cached input token) 보고:
이제 각 모델을 실행하는 실제 비용을 더 잘 반영하기 위해, Intelligence Index 실행 비용을 포함하여 캐시된 입력 토큰과 그것이 비용에 미치는 영향을 보고합니다.

주요 결과:
➤ 선두 모델: Claude Fable 5 (Opus 4.8 폴백 포함, 60)가 Artificial Analysis Intelligence Index v4.1에서 4점 차이로 앞서고 있으나 현재 이용 불가능하며, 이에 따라 Claude Opus 4.8 (max, 56)이 GPT-5.5 (xhigh, 55)를 앞서며 현재 이용 가능한 가장 지능적인 모델로 남았습니다. ➤ 오픈 웨이트 (Open weights) 선두 모델: 오픈 웨이트 모델 중에서는 DeepSeek V4 Pro (max, 44)와 MiniMax M3 (44)가 앞서고 있으며, Kimi K2.6 (43)과 MiMo-V2.5-Pro (42)가 그 뒤를 잇고 있습니다.
➤ 작업당 비용 (Cost per Task): Claude Opus 4.8 (max)는 작업당 $1.78로 이용 가능한 모델 중 가장 비싸며, Claude Fable 5는 전체에서 가장 높은 $3.25를 기록했습니다. GPT-5.5 (xhigh)는 작업당 $0.99로 Intelligence Index에서 Opus 4.8과 1점 차이의 점수를 기록했습니다. DeepSeek V4 Pro (max)는 지능 대비 작업당 비용 (Intelligence vs Cost per Task) 차트에서 작업당 $0.04로 독보적인 모습을 보였으며, 다른 선두권 폐쇄형 (proprietary) 모델들은 이보다 20배에서 45배 더 높은 비용이 발생합니다.
➤ 작업당 시간 (Time per Task): 작업당 시간 (추론 디코딩 시간, inference decode time)은 Grok 4.3 (high)의 1.5분부터 Claude Sonnet 4.6 (max)의 13.5분까지 약 9배의 차이를 보입니다. Claude Opus 4.8 (max)는 작업을 완료하는 데 6.4분이 소요되고 GPT-5.5 (xhigh)는 3.7분이 소요되는 반면, Gemini 3.1 Pro Preview는 지능 대비 작업당 시간 (Intelligence vs Time per Task) 차트에서 46점의 점수로 1.6분을 기록하며 눈에 띄는 성과를 보였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Artificial Analysis Intelligence Index v4.1 발표: 에이전트 중심 워크로드(agentic

요약

핵심 포인트

댓글