arXiv논문2026. 06. 15. 05:00

AgentBeats: 개방성, 표준화 및 재현성을 위한 에이전트 중심의 에이전트 평가 (Agentifying Agent Assessment)

요약

에이전트 평가의 파편화 문제를 해결하기 위해 에이전트 중심의 평가 프레임워크인 AAA와 그 구현체 AgentBeats를 제안합니다. 표준화된 프로토콜을 통해 평가 로직을 에이전트 구현과 분리하여 재현성과 상호 운용성을 높였습니다.

핵심 포인트

에이전트 중심의 평가(AAA)를 통한 표준화된 인터페이스 제안
A2A 및 MCP 프로토콜을 활용한 상호 운용성 확보
대규모 경연 및 코딩 에이전트 사례 연구를 통한 검증 완료
평가 로직과 에이전트 구현의 분리로 재현성 및 확장성 증대

에이전트 시스템은 다양한 도메인에 걸쳐 빠르게 발전하고 있지만, 그 평가 방식은 여전히 파편화되어 있습니다. 대부분의 벤치마크는 무거운 통합을 요구하고, 테스트와 실제 운영 환경 간의 불일치를 초래하며, 다양한 에이전트 설계 간의 공정한 비교를 제한하는 고정된 LLM 중심의 하네스 (harness)에 의존합니다. 근본적인 문제는 개방적이고 에이전트에 구애받지 않는 (agent-agnostic) 평가 인터페이스의 부재입니다. 우리는 평가가 심판 에이전트 (judge agents)에 의해 수행되며, 모든 참여자가 표준화된 프로토콜인 작업 관리를 위한 A2A 및 도구 접근을 위한 MCP를 통해 상호작용하는 에이전트 중심의 에이전트 평가 (Agentified Agent Assessment, AAA)를 제안합니다. 기존의 벤치마킹은 벤치마크를 위한 인터페이스와 에이전트를 위한 인터페이스라는 두 개의 별도 인터페이스를 정의하는 반면, AAA는 단 하나만 필요합니다. 이는 평가 로직을 에이전트 구현으로부터 분리하여 재현 가능하고, 상호 운용 가능하며, 다중 에이전트 (multi-agent) 평가를 가능하게 하는 범용적이고 통합된 프레임워크를 제공합니다. 우리는 더 나아가 AAA의 구체적인 구현체로서 AgentBeats를 소개합니다. 우리는 개방성, 개인정보 보호 및 재현성에 대한 현실 세계의 제약 조건과 표준화된 평가를 호환시키는 다섯 가지 실질적인 운영 모드를 식별했습니다. 우리의 설계를 대규모로 평가하기 위해 두 가지 연구를 수행했습니다. 첫째, 12개 카테고리에 걸쳐 298개의 심판 에이전트와 독립적인 참여자들로부터 모인 467개의 대상 에이전트가 참여한 5개월간의 공개 경연을 통해, AAA가 이질적인 범위의 벤치마크 전반에 적용될 수 있음을 보여주었습니다. 둘째, 코딩 에이전트에 대한 사례 연구를 통해 에이전트 중심의 평가가 공개 기록과의 충실도 (fidelity)를 유지하면서도 이전에는 누락되었던 직접적인 비교 (head-to-head) 결과를 드러내어 에이전트 설계에 관한 연구 통찰을 제공함을 확인했습니다. 커뮤니티 규모의 현장 연구와 통제된 코딩 사례 연구를 결합하여, 우리는 AAA가 이질적인 시나리오 전반에서 대규모로 커버리지, 실용성 및 충실도를 제공함을 검증합니다. 결과적으로 AAA와 AgentBeats는 개방적이고 표준화되며 재현 가능한 에이전트 평가를 향한 명확한 경로를 제시합니다.

AI 자동 생성 콘텐츠

원문 바로가기

AgentBeats: 개방성, 표준화 및 재현성을 위한 에이전트 중심의 에이전트 평가 (Agentifying Agent Assessment)

요약

핵심 포인트

댓글