X요약2026. 05. 04. 17:43

13 개 모달 평가: Claude Opus 4.6 (66.7%), GPT-5.4 (63.8%), Gemini 3.1 Pro (53.3%)

요약

최근 벤치마크 평가에 따르면 Claude Opus 4.6이 66.7%로 가장 높은 점수를 기록하며 선두를 차지했습니다. GPT-5.4는 63.8%, Gemini 3.1 Pro는 53.3%의 순위를 보였습니다. 이 결과는 모델들이 'workspace repair'와 같은 특정 영역에서는 상당한 발전을 이루었으나, HR, 재무(finance), 그리고 다중 시스템 오케스트레이션과 같은 복잡하고 통합적인 업무 처리 능력에는 여전히 해결해야 할 과제가 남아있음을 시사합니다.

핵심 포인트

Claude Opus 4.6이 현재 모달 평가에서 가장 우수한 성능을 보였습니다 (66.7%).
GPT-5.4와 Gemini 3.1 Pro가 각각 2위, 3위를 차지했습니다.
모델들은 'workspace repair' 같은 특정 기능에서는 높은 수준에 도달했으나, HR, 재무, 다중 시스템 오케스트레이션 등 복합적인 비즈니스 영역에서 취약점을 보였습니다.
이 평가는 최신 프론티어 AI 모델들의 성능 비교를 제공합니다.

13 개의 프론티어 모델이 평가되었습니다:
Claude Opus 4.6 은 66.7% 로 1 위, GPT-5.4 는 63.8%, Gemini 3.1 Pro 는 53.3% 입니다.

차이는 명확합니다—workspace repair 는 거의 최대치에 도달했지만 HR, finance, 그리고 multi-system orchestration 은 여전히 해결되지 않았습니다.

논문: https://huggingface.co/papers/2604.28139 … Leaderboard:

AI 자동 생성 콘텐츠

원문 바로가기

Insights

13 개 모달 평가: Claude Opus 4.6 (66.7%), GPT-5.4 (63.8%), Gemini 3.1 Pro (53.3%)

요약

핵심 포인트

댓글

보험료 부담이 영국 전기차 도입 속도를 늦추는 위협

Aspen 소유의 40억 달러 규모 RIA Summitry 창립자 사임 및 두 공동 CEO 승진

PepsiCo CEO가 휘발유 가격과 소비 지출에 대해 경고하다

대형 은행 실적, 미국 인플레이션 데이터 및 Warsh 의장 증언에 주목하며 S&P 선물 시장 주춤