범용 AI 에이전트 성능 측정을 위한 Open Agent Leaderboard 공개

범용 AI 에이전트(general purpose AI agents)는 얼마나 뛰어날까요? 우리는 이를 알아내기 위해 공개 평가 프레임워크(open evaluation framework)를 구축했습니다.

AI 분야의 대부분의 평가는 각 모델이 어떤 벤치마킹 태스크(benchmarking task)에서 어떤 점수를 받았는지라는 단순한 결과만을 보고합니다. 하지만 에이전트(agent)를 배포할 때는 단순히 모델 하나만을 선택하는 것이 아닙니다. 당신은 전체 시스템을 선택하는 것입니다. 즉, 에이전트가 어떤 도구(tools)를 사용할 수 있는지, 단계를 어떻게 계획(plans)하는지, 행동 사이에서 무엇을 기억(remembers)하는지, 그리고 무언가 잘못되었을 때 어떻게 복구(recovers)하는지 등을 선택하는 것입니다. 이 중 하나라도 변경하면 동일한 모델이라도 매우 다른 결과와 매우 다른 비용을 발생시킬 수 있습니다.

AI 에이전트가 얼마나 잘 작동하는지는 내부의 모델뿐만 아니라 어떻게 구축되었는지에 달려 있습니다.

오늘 우리는 모델뿐만 아니라 전체 에이전트 시스템을 비교하기 위한 공개 벤치마크(open benchmark)인 Open Agent Leaderboard를 출시합니다. 이 리더보드는 품질과 비용을 모두 보고하므로, 무엇이 작동하는지뿐만 아니라 무엇이 배포할 가치가 있는지를 확인할 수 있습니다.

이 리더보드는 평가를 실행하고 재현하기 위한 Exgentic 프레임워크, 그리고 전체 방법론과 결과를 설명하는 논문과 함께 제공됩니다. 모든 것은 첫날부터 공개(open) 상태입니다.

AI 에이전트는 익숙한 저장소(repository)에서의 코딩이나 알려진 도구 세트를 활용한 고객 서비스 처리와 같이 특정 작업에 세심하게 맞춤화될 때 매우 유용해집니다. 하지만 더 어려운 질문은 동일한 에이전트가 각기 다른 도구, 규칙, 제약 조건(constraints)을 가진 수많은 서로 다른 작업들을 각각 수동으로 맞춤화하지 않고도 처리할 수 있느냐는 것입니다.

더 일반적인(more general) 에이전트란 새로운 환경에 투입했을 때 바로 작동하는 에이전트를 의미합니다.

이것이 우리가 의미하는 범용성(generality)이며, 이는 이분법적인 라벨이 아닌 스펙트럼(spectrum)으로 이해하는 것이 가장 좋습니다. 물론 이론상으로만 작동하는 범용성은 유용하지 않습니다. 중요한 것은 작업과 환경의 범위가 넓어짐에 따라 에이전트가 능력을 유지하는지, 그리고 이를 합리적인 비용으로 수행하는지 여부입니다. 모든 것을 처리하지만 실행 비용이 엄청나게 드는 시스템은 의미 있는 측면에서 결코 범용적이라고 할 수 없습니다.

이 리더보드는 바로 그 점, 즉 당신의 에이전트가 실제로 얼마나 범용적인지를 측정합니다.

이 리더보드는 서로 다른 도구, 규칙, 제약 조건이 있는 다양하고 생소한 환경 전반에서 에이전트를 평가하며, 품질(Quality)과 비용(Cost)을 모두 보고합니다. 따라서 시스템이 얼마나 잘 작동하는지뿐만 아니라, 실제로 배포할 가치가 있는지도 확인할 수 있습니다. 범용 에이전트가 궁극적으로 필요로 하게 될 모든 능력을 다루지는 않습니다. 하지만 기존에 사용 가능했던 그 어떤 것보다 에이전트가 서로 다른 상황에서 얼마나 잘 작동하는지를 측정하는 훨씬 강력한 테스트입니다. 또한 모델(Model)만이 아니라 전체 에이전트 시스템(Agent System)을 측정 대상으로 삼음으로써, 결과에 실제로 무엇이 영향을 미치는지 가시화합니다.

우리는 각각 다른 종류의 현실적인 작업을 테스트하는 6개의 벤치마크(Benchmark)를 구성했습니다. 이들은 함께 코딩(Coding), 고객 서비스(Customer Service), 기술 지원(Technical Support), 개인 비서(Personal Assistance), 연구(Research) 등 광범위한 작업 환경을 포착하는 것을 목표로 합니다.

SWE-Bench Verified
-- 실제 코드 저장소(Code Repository)에서 실제 버그 수정

BrowseComp+
-- 웹 전반에 걸친 복잡한 질문 연구

AppWorld
-- 수백 개의 앱과 동작을 통한 개인적 작업 완료

tau2-Bench Airline & Retail
-- 회사 정책을 따르는 고객 서비스

tau2-Bench Telecom
-- 회사 정책을 따르는 기술 지원

각 벤치마크는 연구 커뮤니티에 의해 생성되고 검토된 검증된 벤치마크입니다. 특정 하나가 범용적 에이전시(General Agency)를 포착하기 때문에 선택된 것이 아닙니다. 이들이 함께 모였을 때 실제 코드 변경, 개방형 연구, 광범위한 행동 공간(Action Space), 규칙 기반 대화 등 매우 다른 요소들을 테스트할 수 있기 때문에 선택되었습니다. 이러한 조합이 평가를 의미 있게 만듭니다.

이 벤치마크들은 각각 한 가지 종류의 작업을 한 가지 방식으로 테스트하도록 설계되었습니다. 이들을 함께 작동하게 만들기 위해서는 공유된 구조를 부여해야 했습니다. 우리는 모든 벤치마크에 동일한 형태를 부여하는 통합 프로토콜(Unified Protocol)을 도입했습니다. 즉, 작업(Task, 무엇을 할 것인가), 컨텍스트(Context, 무엇을 알아야 하는가), 그리고 일련의 행동(Actions, 무엇이 허용되는가)으로 구성됩니다.

각 에이전트가 각 벤치마크의 언어로 말하는 대신, 모든 에이전트가 단 하나의 언어로 말하게 됩니다.

이러한 표준화는 결코 사소한 작업이 아닙니다. 각 벤치마크(Benchmark)는 저마다의 가정, 지침, 상호작용 패턴을 가지고 있습니다. 이러한 요소들이 서로 다른 에이전트(Agent)의 내부 작동 방식과 충돌하지 않도록 보장하려면 양측 모두에 대한 깊은 이해가 필요합니다. 이것이 이 작업에 시간이 걸린 이유 중 하나이며, 결과가 개별 벤치마크 리더보드(Leaderboard)에서 보는 것과 다를 수 있는 이유 중 하나입니다. 하지만 그 보상은 확실합니다. 벤치마크는 원래의 설계를 유지하고, 에이전트는 고유의 도구와 인터페이스를 유지하며, 프로토콜(Protocol)은 이들을 연결하는 공통된 방식을 제공합니다.

각 행은 하나의 완전한 에이전트 시스템(Agent system)을 나타냅니다. 즉, 특정 모델과 결합된 특정 에이전트가 6개의 모든 벤치마크에 대해 평가된 것입니다. 모든 구성(Configuration)에 대해 평균 성공률(Success rate), 작업당 평균 비용(Average cost per task), 그리고 벤치마크별 세부 내역을 확인할 수 있습니다.

현재 상위 5위의 모습은 다음과 같습니다:

상위 3개를 살펴보십시오. 모두 동일한 모델을 사용합니다. 그럼에도 불구하고 점수와 비용 모두에서 차이가 나는데, 이는 해당 모델을 감싸고 있는 에이전트 시스템이 서로 다르기 때문입니다.

동일한 모델, 다른 에이전트, 다른 결과 — 즉, 에이전트가 중요하다는 뜻입니다.

비용 격차 또한 매우 놀랍습니다. 상위 5위 중 가장 효율적인 구성은 가장 강력한 구성 비용의 아주 일부만 사용합니다. 모든 구성을 품질과 비용에 따라 도식화하면 전체적인 그림이 명확해집니다:

모델과 함께 에이전트 구현(Implementation)이 가시화되면, 무엇이 결과를 주도하는지 파악하기 시작할 수 있습니다. 즉, 어떤 이득이 모델에서 왔는지, 어떤 것이 에이전트 설계에서 왔는지, 그리고 어떤 구성 요소가 다양한 환경에서 일반화(Generalize)되는지를 구분할 수 있습니다. 이것이 바로 이 리더보드가 보여주기 위해 구축된 목적입니다.

결과에 관한 참고 사항: 여기서 에이전트는 벤치마크별 튜닝(Tuning) 없이, 그리고 모델 개발자들이 종종 개별 벤치마크에 적용하는 프롬프트(Prompt) 및 환경 최적화 없이 범용 시스템으로서 테스트됩니다. 따라서 점수가 다를 수 있습니다. 자세한 내용은 논문을 참조하십시오.

한 가지 놀라운 발견은 범용 에이전트 (General-purpose agents)가 이미 특화된 에이전트 (Specialized ones)와 경쟁할 만한 수준이라는 점입니다. 여러 사례에서 벤치마크 전용 튜닝 (Benchmark-specific tuning)을 거치지 않은 에이전트가 해당 작업을 위해 직접 구축된 시스템과 대등한 성능을 보였습니다.

대부분의 벤치마크에서 범용 에이전트는 최고의 특화 시스템과 대등하거나 심지어 능가하기도 합니다. 단일 에이전트가 준비된 단 하나의 환경뿐만 아니라 점점 더 많은 종류의 업무를 처리할 수 있게 되고 있습니다.

또한 결과는 성공률만으로는 볼 수 없는 사실을 드러냅니다. 에이전트들은 실패하는 방식에서 극명한 차이를 보입니다. 어떤 에이전트는 빠르고 저렴하게 실패하는 반면, 다른 에이전트들은 포기하기 전까지 길고 비용이 많이 드는 실행 과정을 거칩니다. 우리의 실험에서 실패한 실행은 성공한 실행보다 20~54% 더 많은 비용이 발생했습니다. 에이전트를 프로덕션 (Production) 환경에서 운영하는 누구에게나, 실패 동작은 성공만큼이나 비용 청구액을 결정짓는 중요한 요소입니다.

아마도 가장 중요한 발견은 결과의 동인이 무엇인지에 관한 것입니다. 모델 선택 (Model choice)은 여전히 지배적인 요인입니다. 하지만 에이전트 아키텍처 (Agent architecture)는 이미 눈에 띄는 차이를 만들어내고 있습니다. 도구 선별 (Tool shortlisting) — 에이전트가 모든 것을 검색하는 대신 관련 도구에 집중할 수 있도록 돕는 기술 — 은 우리가 테스트한 모든 모델에서 성능을 향상시켰으며, 그렇지 않았다면 실패했을 설정들을 실행 가능한 설정으로 바꾸어 놓았습니다.

현재는 모델이 결과의 대부분을 설명합니다. 하지만 그 주변의 에이전트가 이미 결과값을 바꾸기 시작했습니다.

전체 방법론 (Methodology)과 실증적 분석 (Empirical analysis)은 범용 에이전트 평가에 관한 우리의 논문에 기술되어 있습니다.

이 리더보드(Leaderboard)의 모든 뒷배경은 공개되어 있습니다. 오늘 우리는 다음을 공개합니다:

Open Agent Leaderboard -- 결과를 직접 확인하십시오
Exgentic -- 직접 평가를 실행하고 재현하십시오
논문 -- 전체 방법론 및 실증적 분석

우리는 이를 커뮤니티를 위해 만들었습니다. 탐색하고, 여러분만의 결과를 제출하며, 에이전트 평가가 모두에게 더 개방적이고 유용해질 수 있도록 도와주십시오.

범용 에이전트는 폐쇄된 문 뒤에서 평가되기에는 너무나 중요합니다.

범용 에이전트 (General agents)는 계획 (planning), 메모리 (memory), 도구 사용 (tool use), 컨텍스트 관리 (context management), 오류 복구 (error recovery)와 같은 모듈형 시스템입니다. 위의 결과는 이러한 구성 요소들이 비용 (cost), 신뢰성 (reliability), 성능 (performance) 사이에서 실제적인 트레이드오프 (tradeoffs)를 발생시킨다는 것을 보여줍니다. 만약 특정 구성 요소가 핵심적인 역할 (heavy lifting)을 수행하고 있다면, 커뮤니티가 이를 확인할 수 있어야 합니다.

우리는 이러한 종류의 개방형 평가를 실용적으로 만들기 위해 Exgentic을 구축했습니다. Exgentic은 교차 환경 벤치마크 세션 (cross-environment benchmark sessions)을 오케스트레이션 (orchestrate)하고 표준화된 결과, 궤적 (trajectories), 그리고 비용 보고서 (cost reports)를 생성하는 개방형 플랫폼입니다. 하지만 우리 혼자서는 이를 구축할 수 없습니다.

에이전트 개발자들은 변경 사항을 버전 관리 (versioning)하고, 내부 구성을 문서화하며, 구성 요소를 설정 가능하게 (configurable) 만듦으로써 자신들의 시스템을 개방할 수 있습니다. 벤치마크 제작자들은 우리가 평가하는 설정의 범위를 확장하는 데 도움을 줄 수 있습니다. 그리고 누구나 우리의 결과를 재현하고, 이의를 제기하며, 우리가 놓친 부분을 찾아낼 수 있습니다.

이 모든 것이 아직 쉽지는 않습니다. 대부분의 벤치마크는 범용 에이전트를 염두에 두고 설계되지 않았으며 세심한 적응 (adaptation)이 필요합니다. 이것은 진화하는 프로젝트이며, 무엇을 더 쉽게 만들어야 하는지에 대한 피드백은 완성된 기여만큼이나 환영합니다.

출시 이후 우리는 두 개의 오픈 웨이트 모델 (open-weight models)인 DeepSeek V3.2와 Kimi K2.5를 추가하여, 5개의 에이전트와 6개의 벤치마크에 걸쳐 5개의 모델로 리더보드를 확장했습니다. 오픈 웨이트 결과는 명확한 이야기를 들려줍니다. 특정 조합에서는 경쟁력이 있지만, 프런티어 폐쇄형 모델 (frontier closed-source models)에 비해 평균 18~29%포인트 뒤처져 있습니다. 자세한 내용은 우리의 오픈 웨이트 심층 분석 (open-weight deep-dive)에서 확인하십시오.

리더보드는 그것을 채워주는 커뮤니티만큼만 유용합니다. 우리는 세 가지 축에 걸친 기여를 기다리고 있습니다: 새로운 에이전트 (에이전트를 Exgentic 프로토콜로 감싸고 결과를 제출하십시오), 새로운 벤치마크 (프로그래밍 방식의 평가기 (programmatic evaluator)를 갖춘 모든 태스크 스위트 (task suite)는 통합될 수 있습니다), 그리고 새로운 모델 (특히 우리가 아직 다루지 않은 오픈 웨이트 모델들). 결과 데이터셋에 PR (Pull Request)을 생성하여 결과를 제출해 주세요.

범용 에이전트는 단순히 모델만이 아닌, 전체 시스템 (full system)이라는 실제로 측정되고 있는 것을 반영하는 평가를 받을 자격이 있습니다.

Open Agent Leaderboard는 시작점에 불과합니다. 우리는 이것이 커뮤니티가 오픈 에이전트 시스템 (open agent systems)을 평가하고, 비교하며, 개선하는 방식에 대한 공유된 표준 (shared standard)이라는 더 큰 무언가로 발전할 수 있다고 믿습니다.

리더보드를 탐색해 보세요. 논문을 읽어보세요. Exgentic을 시도해 보세요. 그리고 이 방향성에 공감한다면, 우리가 이를 구축할 수 있도록 도와주세요.

범용 에이전트 (General agents)는 업무가 수행되는 방식을 재편하고 있습니다. 이를 공개적으로 연구하고 논의합시다.

General Agent Evaluation -- ICLR 2026 워크숍 논문 (Workshop Paper)
Ready For General Agents? Let's test it. -- ICLR 2026 블로그 포스트 (Blog Post)
Position: Agentic Systems Should be General -- ICLR 2026 워크숍 논문 (Workshop Paper)

범용 AI 에이전트 성능 측정을 위한 Open Agent Leaderboard 공개

요약

핵심 포인트

댓글