Gaia2 and ARE: Empowering the community to study agents

그것이 바로 우리가 Gaia2 를 소개하게 된 이유입니다. Gaia 은 에이전트 벤치마크로, 훨씬 더 복잡한 행동을 분석할 수 있게 합니다. Gaia2 는 오픈 Meta Agents Research Environments (ARE) 프레임워크와 함께 출시되어 에이전트를 실행하고 디버깅 및 평가하는 데 사용됩니다. ARE 는 복잡한 실세계와 유사한 조건을 시뮬레이션하며 에이전트 행동을 더 연구하기 위해 커스터마이징할 수 있습니다. Gaia2 데이터셋은 CC by 4.0 라이선스, ARE 는 MIT 라이선스로 출시되었습니다.

GAIA 는 2023 년에 출판된 에이전트 벤치마크로, 도구, 웹 브라우징 및 추론을 사용하여 해결해야 하는 정보 검색 질문 3 단계가 있습니다. 2 년 동안 가장 쉬운 수준은 모델에게 너무 쉬워졌고, 커뮤니티는 가장 어려운 질문을 거의 해결하기 시작했으므로 이제 완전히 새로운更难의 에이전트 벤치마크가 필요한 때였습니다!

여기 Gaia2 가 등장합니다. GAIA 의 후속작으로, 연구된 능력 측면에서 그 이상을 넘어섭니다.

GAIA 는 읽기 전용이었지만, Gaia2 는 이제 읽기 및 쓰기 벤치마크로, 상호 작용 행동과 복잡성 관리에 중점을 둡니다. 에이전트는 검색 및 정보 검색뿐만 아니라 모호하거나 시간 제한적인 쿼리에 대한 지시 따름을 평가받으며, 제어된 실패가 있는 환경에서 평가됩니다 - 이는 다른 어떤 시뮬레이션 환경보다 더 실세계 조건을 반영합니다. 우리는 에이전트가 때때로 작동하지 않는 도구 또는 API 를 관리하는지, 매우 구체적인 시간 프레임으로 행동 순서를 계획하는지, 새로운 사건에 적응하는지를 테스트하고 싶습니다 - 전체 새로운 복잡성의 범위입니다!

이를 위해 우리는 다음 작업 그룹을 사용합니다 (1000 개의 브랜드 새 인간 생성 시나리오에 감사드립니다):

Execution: 다단계 지시 따름 및 도구 사용 (예: 연락처 업데이트)Search: 교차 출처 정보 수집 (예: WhatsApp 에서 친구 도시)Ambiguity Handling: 모순된 요청의 명확화 (예: 스케줄링 충돌)Adaptability: 시뮬레이션 변화에 대한 응답 (예: 후속 정보를 사용하여 이메일 업데이트)Time/temporal Reasoning: 시간 제한적인 행동 (예: 3 분 지연 후 택시 주문)Agent-to-Agent Collaboration: 직접 API 접근 없이 에이전트 간 통신Noise Tolerance: API 실패 및 환경 불안정성에 대한 견고성

GAIA 의 정신에 따르면, 시나리오에는 전문 지식이 필요하지 않습니다: 인간은 원칙적으로 100% 를 얻을 수 있어야 하며, 이는 모델 개발자를 위한 쉬운 디버깅을 가능하게 합니다.

벤치마크를 탐구하고 싶으신가요? 데이터셋을 확인해 보세요. 여기에서 더 잘 표시할 수 있습니다.

Gaia2 는 ARE 와 함께 실행됩니다. 에이전트 선택이 여러 가지 애플리케이션 및 관련 사전 채워진 데이터에 액세스할 수 있는 실행 환경입니다.

Gaia2 에서는 스마트폰 모의 환경을 만들었습니다. 인간이 일상 생활에서 사용할 것을 시뮬레이션합니다. 메신저 (이메일), 유틸리티 (캘린더, 연락처, 쇼핑, 파일 시스템, …) 와 같은 실세계 애플리케이션을 포함하며, 에이전트와 대화할 수 있는 채팅 인터페이스를 포함합니다. 모든 애플리케이션은 도구 호출을 통해 에이전트에 의해 액세스됩니다. 마지막으로, 데모에는 시뮬레이션된 페르소나의 대화 및 앱 상호 작용의 역사도 포함되어 있습니다.

모든 에이전트 상호 작용은 실행 중 구조화된 트레이스로 자동 기록되며 심층 탐색 및 분석에 사용됩니다: 도구 호출, API 응답, 모델 사고, 타이밍 지표 (예: 응답 지연), 사용자 상호 작용 등을 포함하며 모두 JSON 으로 내보낼 수 있습니다.

참고로, 우리는 다양한 대형 오픈소스 및 클로즈드 소스 모델을 비교합니다: Llama 3.3-70B Instruct, Llama-4-Maverick, GPT-4o, Qwen3-235B-MoE, Grok-4, Kimi K2, Gemini 2.5 Pro, Claude 4 Sonnet, 그리고 모든 추론 모드에서 GPT-5.

모든 모델은 동일한 설정 (일관성을 위한 균일한 ReAct 루프, 온도가 0.5, 생성 제한이 토큰 16K) 을 사용하여 평가되며, 각 특정 작업에 따라 모델-as-a-judge (Llama 3.3 Instruct 70B) 와 정확한 매칭 평가가 결합됩니다. 모든 101 개의 도구 (및 일반적인 환경 설명) 은 시스템 프롬프트에 제공됩니다.

평가된 모델 중 최고 점수 모델은 2025 년 9 월 기준 GPT-5 로, 높은 추론 능력을 가지고 있으며, 가장 좋은 오픈소스 모델은 Kimi K2 입니다.

일부 능력은 이미 최상의 모델에 의해 해결에 가깝게 (close to solved) 보입니다: 간단한 도구 호출 실행 및 지침 따름 (execution), 그리고 전반적인 search (GAIA 의 현재 결과에서 우리가 예상했듯이). 모호성, 적응력, 노이즈 분할은 여전히 모든 모델에게 현재로서는 도전적이며, 중요한 것은被视为 복잡한 에이전트 작업으로 간주되었던 것 (지침 따름 및 검색) 이 실제 세계에 가까운 작업의 성능을 좋은 대안으로 보이지 않는다는 점입니다. 마지막으로, 현재 모든 모델에서 가장 어려운 분할은 time 입니다: 모델이 시간 민감적인 작업을 올바르게 처리하는 것은 현재 매우 어렵습니다 (이는 전문화된 도구와 더 나은 시간적 추론 사용에 의해 완화될 수 있습니다). 이러한 결과의 상세 분석은 논문에서 찾을 수 있습니다.

그러나 우리는 원래 점수 이상의 보고를 중요하게 생각합니다: 모델이 올바른 해답에 도달하기 위해 수천 개의 토큰을 사용하거나 몇 시간을 실행했다면, 수백 배 더 빠르게 성공한 모델보다 "그만큼 좋지 않습니다". 따라서 우리는 비용 (LLM 호출 및 출력 토큰의 평균 수 - 이는 비용-성능 파레토 경계를 정의함) 을 기준으로 점수를 정규화합니다. 논문에서는 점수 대비 금전적 비용과 시간을 찾을 수 있습니다.

Gaia2 에서 모델을 평가하고 싶다면 다음 단계를 따르세요:

먼저, 선호하는 Python 환경 (uv, conda, virtualenv, ...) 에 Meta 의 Agent Research Environment 를 설치하세요.

pip install meta-agents-research-environments

그런 다음 모든 구성 (execution, search, adaptability, time 및 모호성) 을 위한 벤치마크를 실행하세요. 결과를 hub 로 업로드하는 것을 잊지 마세요!

are-benchmark run --hf meta-agents-research-environments/Gaia2 --split validation --config CONFIGURATION --model YOUR_MODEL --model_provider YOUR_PROVIDER --agent default --max_concurrent_scenarios 2 --scenario_timeout 300 --output_dir ./monitored_test_results --hf_upload YOUR_HUB_DATASET_TO_SAVE_RESULTS

오라클을 실행하여 집계 점수 파일을 얻으세요.

are-benchmark judge --hf meta-agents-research-environments/Gaia2 --split validation --config CONFIGURATION --agent default --max_concurrent_scenarios 2 --scenario_timeout 300 --output_dir ./monitored_test_results --hf_upload YOUR_HUB_DATASET_TO_SAVE_RESULTS

마지막으로, 모델에 대한 모든 관련 정보를 README 에 추가하고 리더보드에서 Gaia2 추적 정보를 중앙화하세요!

벤치마크 시나리오를 넘어 Gaia2 앱과 콘텐츠를 ARE 에서 사용하여 모델이 이메일 로딩, 추후 메일 작성, 캘린더 이벤트 추가, 회의 예약 등 검증하기 어려운 작업을 올바르게 해결할 수 있는지 확인해 보세요. 이를 통해 상호작용을 통해 AI 어시스턴트를 평가하는 완벽한 환경을 조성할 수 있습니다!

환경을 쉽게 커스터마이징할 수도 있습니다. 1) 도구를 연결 (MCP 를 통해 또는 직접적으로) 하여 에이전트 테스트; 2) 자신의 시나리오를 구현하여, 예를 들어 "2 분 후 Contact 앱에 새로운 이메일이 도착"과 같은 트리거 또는 타이밍 이벤트를 정의하고, 에이전트가 진화하는 환경에 어떻게 적응할 수 있는지 확인합니다.

(에이전트는 기본적으로 json agents 이므로, 외부 앱에 안전하지 않은 권한을 부여하여 연결하지 않는 한 머신에 문제를 일으키지 않습니다. 따라서 자신의 앱을 추가하거나 신뢰할 수 없는 MCP 를 사용할 때는 주의하세요.)

ARE 를 사용한 몇 가지 사용 사례를 소개합니다:

실제 또는 시뮬레이션 데이터를 기반으로 에이전트의 '비브 체크' 수행, 각기 다른 규칙, 도구, 콘텐츠, 검증 방법을 가진 다양한 설정을 연구하기 위해 - 에이전트 테스트

로컬 앱 또는 MCP 도구를 통한 도구 호출 및 오케스트레이션 기능 테스트 - 자신의 도구 호출 트래스를 생성하여 - 도구 호출 모델을 미세 조정 - 유니티드 프레임워크 내에서 기존 에이전트 벤치마크를 쉽게 수집하고 재현 - 사용자 인터페이스 내에서 실시간으로 에이전트 간 상호작용을 디버깅 및 연구
잡음 환경 (API 타임아웃과 모호성 포함) 에서 모델의 한계를 연구

우리는 3 개의 영상을 녹화하여 이러한 사용 사례 중 일부에 대해 확인해 주었습니다 (물론, ARE 에 대한 커뮤니티가 창의적으로 접근하기를 바랍니다 :hugging_face:). 이 영상들은 위에서 설명한 기본 데모를 사용하여, 머신러닝 박사후 연구원인 Linda Renne 의 시뮬레이션된 삶을 포함합니다.

기본 모델이 이벤트 조직을 얼마나 잘 수행하는지 테스트하기 위해 생일 파티 계획을 세워 보겠습니다!

우선 에이전트를 요청하여 11 월 7 일의 사용자 30 대 생일 파티에 대해 Renne 가족 모든 사람을 텍스트로 연락하도록 합니다. 기본 우주에는 21 명의 연락처가 있으며,其中包括 Linda (시뮬레이션 '소유자'), George 와 Stephie (부모), Anna (형제), Morgan (할아버지) 를 포함한 5 명의 Renne 가족 구성원입니다. 에이전트는 연락처 목록을 성공적으로 확인하여 4 명의 가족 구성원을 찾았습니다.

다음으로, 에이전트가 캘린더 초대장을 만들고 이를 초대자로 추가하도록 요청합니다. 에이전트는 위의 컨텍스트를 기억합니다! 올바른 날짜에 캘린더 초대장을 생성하고 가족 구성원을 올바르게 초대합니다.

ARE 는 또한 에이전트의 수행한 작업 뒤에 있는 트래스를 확인할 수 있게 해줍니다. 왼쪽의 Agent logs 도구를 열면 시스템 프롬프트, 사고 과정, 도구 호출과 함께 여러 단계의 수행된 행동, 그리고 깔끔하게 정리된 로그로 결과를 확인할 수 있습니다. 오프라인에서 내용을 검토하고 싶다면 모든 것을 JSON 으로 내보낼 수 있습니다.

이 마지막 예제에서는 ARE 를 MCP 를 통해 원격 로봇 팔에 연결하여, 에이전트가 우리에게 손짓을 시키고 우리가 '예/아니오' 질문을 할 때 로봇 팔이 흔들도록 합니다. 이것이 어떻게 보이는지 확인해 보세요.

하지만 이 예시들은 매우 간단한 시작점일 뿐이며, 실제로는 여러분이 구축할 것을 기대합니다! (더 고급 사용자라면 Meta-ARE 코드를 직접 설치하고 편집하여 여기에서 진행할 수 있습니다.)

Gaia2 와 ARE 는 누구나 더 신뢰할 수 있고 유연한 AI 에이전트를 쉽게 구축할 수 있도록 돕기를 바라는 새로운 연구 도구입니다. 이를 통해 쉬운 실험을 가능하게 하고, 실제 세계 평가에 대한 접근성을 높이며, 투명한 재현 가능한 벤치마크와 디버그 가능한 트레이스를 통해 신뢰를 개선합니다.

이 프로젝트로 무엇을 할지 궁금해하는 것을 기꺼이 환영합니다!

Gaia2 and ARE: Empowering the community to study agents

요약

핵심 포인트

댓글