13 개 모달 평가: Claude Opus 4.6 (66.7%), GPT-5.4 (63.8%), Gemini 3.1 Pro (53.3%)
요약
최근 벤치마크 평가에 따르면 Claude Opus 4.6이 66.7%로 가장 높은 점수를 기록하며 선두를 차지했습니다. GPT-5.4는 63.8%, Gemini 3.1 Pro는 53.3%의 순위를 보였습니다. 이 결과는 모델들이 'workspace repair'와 같은 특정 영역에서는 상당한 발전을 이루었으나, HR, 재무(finance), 그리고 다중 시스템 오케스트레이션과 같은 복잡하고 통합적인 업무 처리 능력에는 여전히 해결해야 할 과제가 남아있음을 시사합니다.
핵심 포인트
- Claude Opus 4.6이 현재 모달 평가에서 가장 우수한 성능을 보였습니다 (66.7%).
- GPT-5.4와 Gemini 3.1 Pro가 각각 2위, 3위를 차지했습니다.
- 모델들은 'workspace repair' 같은 특정 기능에서는 높은 수준에 도달했으나, HR, 재무, 다중 시스템 오케스트레이션 등 복합적인 비즈니스 영역에서 취약점을 보였습니다.
- 이 평가는 최신 프론티어 AI 모델들의 성능 비교를 제공합니다.
13 개의 프론티어 모델이 평가되었습니다:
Claude Opus 4.6 은 66.7% 로 1 위, GPT-5.4 는 63.8%, Gemini 3.1 Pro 는 53.3% 입니다.
차이는 명확합니다—workspace repair 는 거의 최대치에 도달했지만 HR, finance, 그리고 multi-system orchestration 은 여전히 해결되지 않았습니다.
논문: https://huggingface.co/papers/2604.28139 … Leaderboard:
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기