arXiv논문2026. 06. 05. 15:45

ADK Arena: LLM-as-a-Developer를 통한 Agent Development Kit 평가

요약

LLM 코딩 에이전트를 활용해 다양한 에이전트 개발 키트(ADK)의 성능을 자동 평가하는 'ADK Arena' 방법론을 제안합니다. 51개의 Python 프레임워크를 분석한 결과, API 복잡도에 따른 비용 차이와 프레임워크별 성능 편차를 확인했습니다.

핵심 포인트

LLM-as-a-Developer 방법론을 통한 ADK 자동 평가 체계 구축
프레임워크 API 사용성에 따른 생성 비용의 유의미한 차이 발견
특정 프레임워크가 모든 작업에서 압도적이지 않음을 입증
문서와 소스 코드 등 정보 소스 간의 상호 대체 가능성 확인

LLM 기반 자율 에이전트(autonomous agents)를 구축하기 위한 SDK 수준의 프레임워크인 Agent Development Kit (ADK)의 급격한 확산은, 프레임워크 선택이 에이전트 성능에 어떤 영향을 미치는지에 대한 실증적 이해보다 빠르게 진행되었습니다. 본 논문에서는 인간 개발자를 대신하여, 문서로부터 각 프레임워크의 API를 학습하고, 에이전트 코드를 작성하며, 테스트를 통과할 때까지 검증 및 피드백 루프(validate-and-feedback loop)를 통해 반복적으로 코드를 수정하는 LLM 코딩 에이전트를 활용하는 방법론인 \textbf{LLM-as-a-Developer}를 제안합니다. 개발자를 고정하고 프레임워크만을 변경함으로써, 생성 노력(generation effort)은 API 사용성(usability)에 대한 정량적 대리 지표(proxy)가 되며, 결과물인 에이전트는 프레임워크 효과성에 대한 통제된 측정치를 제공합니다. 우리는 이를 \textbf{ADK Arena}에서 구현하였으며, 이는 프레임워크별 Docker 격리, 3단계 검증 파이프라인, 그리고 SWE-bench, $\tau^2$-bench, Terminal-Bench, MCP-Atlas를 위한 벤치마크 어댑터(benchmark adapters)를 갖춘 완전 자동화된 파이프라인입니다. 51개의 인기 있는 Python ADK 프레임워크(204개의 에이전트-벤치마크 쌍)를 평가한 결과, 다음과 같은 사실을 발견했습니다: (1) 생성은 실행의 57%에서 성공하며, 비용은 프레임워크에 따라 5.6배 차이가 납니다(에이전트당 $0.6에서 $3.4). 이는 API 복잡성의 정량적 대리 지표이지만, 비용만으로는 성공 여부를 예측할 수 없습니다; (2) 압도적인 단일 프레임워크는 존재하지 않습니다. 단일 벤치마크에서 가장 뛰어난 ADK 에이전트는 작업의 최대 80%를 해결하며, 훨씬 적은 비용으로 범용 프론티어 코딩 에이전트(frontier coding agents)를 심지어 \emph{능가}할 수도 있지만, 중앙값(median) 프레임워크의 해결률은 32%에 불과합니다; (3) 정보 소스 제거 실험(information-source ablations) 전반에 걸쳐, 실제 프레임워크 사용률은 28~40%의 좁은 범위 내에 머물렀습니다(원시 소스 접근 시 가장 높았으며, 참조 자료가 전혀 없는 경우에도 여전히 33%를 기록). 이는 문서(documentation), 소스 코드, 그리고 파라미터 지식(parametric knowledge)이 특정 요소가 결정적인 병목(bottleneck)이 되기보다는 서로 대체 가능한 관계임을 나타냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

ADK Arena: LLM-as-a-Developer를 통한 Agent Development Kit 평가

요약

핵심 포인트

댓글