AgentAtlas: LLM 에이전트를 위한 결과 중심 리더보드를 넘어서

대규모 언어 모델 (LLM) 에이전트는 이제 코드베이스, 브라우저, 운영 체제 (OS), 캘린더, 파일 및 도구 생태계에서 작동하지만, 이들을 평가하는 데 사용되는 벤치마크는 파편화되어 있습니다. 각 벤치마크는 서로 다른 측정 단위(최종 작업 성공, 도구 호출 (tool-call) 유효성, 반복 패스 일관성, 궤적 안전성 또는 공격 견고성)를 강조합니다. 2024-2025년의 일련의 연구들은 단일 정확도(accuracy) 열이 더 이상 실제 배포 가능한 에이전트를 위한 적절한 비교 단위가 아니라는 진단으로 수렴하고 있습니다. AgentAtlas는 다음 네 가지 구성 요소를 통해 이러한 연구 흐름을 확장합니다: (i) 6가지 상태의 제어-결정 분류 체계 (Act / Ask / Refuse / Stop / Confirm / Recover); (ii) 두 개의 직교하는 계층적 레이블 (primary_error_source, impact)을 가진 9개 카테고리의 궤적 실패 (trajectory-failure) 분류 체계; (iii) 모델의 외견상 능력이 프롬프트 내의 감독 (supervision)으로부터 얼마나 오는지 측정하는 분류 체계 인식 (taxonomy-aware) 대 분류 체계 미인식 (taxonomy-blind) 방법론; (iv) 15개의 에이전트 벤치마크를 6개의 행동 축에 매핑하는 벤치마크 커버리지 감사 (benchmark-coverage audit). 이 방법론을 입증하기 위해, 우리는 두 가지 프롬프트 모드 하에서 소규모의 고정된 8개 모델 세트(생성된 항목 1,342개, 4개의 프론티어 폐쇄형 모델 및 4개의 오픈 웨이트 (open-weight) 모델)를 실행합니다. 명시적인 레이블 메뉴를 제거하면, 모델 계열과 관계없이 모든 모델의 궤적 정확도 (trajectory accuracy)가 14-40%p 하락하여 0.54-0.62의 좁은 하한선으로 떨어지며, 제어 정확도 (control accuracy), 궤적 진단 (trajectory diagnosis), 도구-컨텍스트 유용성 유지 (tool-context utility retention)의 세 가지 측면 모두에서 승리하는 단일 모델은 존재하지 않았습니다. 우리는 이 합성 실행을 벤치마크 출시가 아닌 측정 프로토콜의 시연으로 취급합니다.

Insights

AgentAtlas: LLM 에이전트를 위한 결과 중심 리더보드를 넘어서

요약

핵심 포인트

댓글

$META, 이미지 생성용 AI 모델 출시 및 자체 모델로 제3자 AI 이미지 모델 대체 계획

Figma Code Layers, MCP Server, Motion 및 생성형 셰이더와 플러그인 출시 이후 프롬프팅의 역할에 대해 생각하며

요약: Base MCP의 작동 방식

Monad의 가까운 미래 방향: MEV 저항성을 제공하고 업계 최고 수준의 성능을 개선하는 블록체인으로 진화

Figma Code Layers, MCP Server, Motion 및 생성형 셰이더와 플러그인 출시 이후 프롬프팅의 역할에 대해 생각하며

요약: Base MCP의 작동 방식

Monad의 가까운 미래 방향: MEV 저항성을 제공하고 업계 최고 수준의 성능을 개선하는 블록체인으로 진화