시련을 통과하기: 익숙한 환경을 넘어선 에이전트(Agents) 능력의 재평가
요약
에이전트 시스템의 일반화 능력을 평가하기 위한 새로운 웹 기반 벤치마크인 GauntletBench를 소개합니다. 시간적 인지, 그래픽 이해, 3D 추론 등 기존 벤치마크가 간과했던 복잡한 시나리오를 통해 최첨단 에이전트의 한계를 분석합니다.
핵심 포인트
- GauntletBench는 시각 집약적이고 전문적인 5가지 애플리케이션을 평가함
- 시간적 인지, 그래픽 이해, 3D 추론 능력을 중점적으로 측정
- 최첨단 에이전트의 성공률은 19.1%로 인간(80% 이상)과 큰 격차를 보임
- 현재 에이전트 시스템이 실제 복잡한 시나리오에서 직면한 한계를 입증
에이전트 시스템(agentic systems)이 지속적으로 진화하고 실제 세계의 시나리오에 널리 배포됨에 따라, 이들의 능력을 충실하게 평가해야 한다는 요구가 커지고 있습니다. 그러나 현재의 벤치마크(benchmarks)는 일반적으로 비교적 단순한 작업이 포함된 인기 있는 애플리케이션을 기반으로 구축되어 있으며, 좁은 범위의 능력에 집중하는 반면 더 넓은 차원들을 간과하고 있습니다. 이는 현대적인 에이전트들의 성능 포화 상태를 초래하고 그들의 한계를 탐색하는 데 실패하고 있습니다. 이를 위해 우리는 도전적인 시나리오에서 에이전트의 일반화(generalisation) 능력을 평가하기 위한 웹 기반 벤치마크인 GauntletBench를 소개합니다. 이 벤치마크는 아직 충분히 탐구되지 않은 세 가지 능력(시간적 인지(temporal perception), 그래픽 이해(graphical understanding), 3D 추론(3D reasoning))에 초점을 맞추며, 상대적으로 덜 다뤄진 다섯 가지 전문 애플리케이션(Video Editor, Workflow Builder, 3D Modeller, Flight Analyser, Circuit Designer)에 걸쳐 각각 20개의 시각 집약적(vision-intensive) 작업(총 100개)을 제공합니다. 우리의 벤치마크는 오픈 소스 및 클로즈드 소스 에이전트 프레임워크 모두와 호환되는 환경, 제어된 웹 기반 애플리케이션, 잘 구조화된 작업 세트, 그리고 다양한 지표를 갖춘 자동화된 평가 엔진으로 구성된 모듈형 파이프라인을 제공합니다. 널리 퍼진 기대와는 달리, 우리의 실증적 결과는 최첨단 에이전트 시스템(frontier agentic systems)이 인간 수준의 성능을 달성하기에는 여전히 갈 길이 멀다는 것을 보여줍니다. 최첨단(state-of-the-art) 에이전트조차 우리의 GauntletBench에서 단 19.1%의 성공률을 기록했으며, 이는 간과되었던 이러한 능력들과 일반화 측면에서의 한계를 강조합니다. 이에 비해, 비전문가인 인간 주석가(human annotators)는 도전적이지만 실행 가능한 우리의 작업에서 80% 이상의 성공률을 달성하였으며, 이는 현재의 에이전트 능력과 복잡한 실제 시나리오에 요구되는 능력 사이의 상당한 격차를 드러냅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기