AgentMeter: CLI 기반 로컬 작업 해결 에이전트를 위한 모델-CLI 매칭 평가
요약
LLM 에이전트의 CLI 기반 로컬 작업 수행 능력을 평가하기 위한 새로운 벤치마크인 AgentMeter를 소개합니다. 모델과 CLI 환경의 상호작용을 고려하여 성공률, 토큰 비용, 비용 효율성을 통합적으로 측정하는 AgentMeter Score(AMS) 지표를 제안합니다.
핵심 포인트
- 모델 단독 성능이 아닌 모델과 CLI 환경의 결합 성능 평가 필요성 강조
- 성공률과 비용을 모두 고려한 새로운 지표 AMS(AgentMeter Score) 도입
- Benchmark90 및 Core30 데이터셋을 통한 다양한 모델-CLI 구성 검증
- 모델 선택과 CLI 선택을 분리하지 않고 하나의 단위로 평가해야 함을 입증
LLM 에이전트들은 코드 편집, 저장소 검사, 데이터 분석 및 파일 워크플로우를 포함하여 명령줄(command-line) 및 CLI 기반의 하네스 인터페이스(harness interfaces)를 통해 로컬 작업을 점점 더 많이 해결하고 있습니다. 기존의 평가 방식은 종종 작업 성공 여부에만 강조점을 두지만, 실제로 배포된 로컬 에이전트는 모델 단독으로 작동하는 것이 아닙니다. CLI는 프롬프트(prompts), 컨텍스트 재생(context replay), 도구 출력(tool outputs), 파일 접근, 터미널 관찰(terminal observations) 및 중단 동작(stopping behavior)을 매개합니다. 그 결과, 동일한 모델이라도 서로 다른 CLI 환경에서는 각기 다른 성공률, 토큰(token) 및 비용 프로필을 나타낼 수 있습니다. 우리는 CLI 매개 로컬 작업 해결 에이전트에서 모델-CLI 매칭을 평가하기 위한 벤치마크인 AGENTMETER와 함께, 보정된 작업 노력 단계(task-effort tiers)에 대해 성공에 기반하고 비용을 고려한 지표인 AgentMeter Score (AMS)를 소개합니다. AgentMeter는 Benchmark90을 전체 검증 세트로 사용하며, 24개의 완전한 모델-CLI 구성에 대한 확장된 비교를 위해 저비용 하위 집합인 Core30을 사용합니다. Core30에서 일반적인 배포 기준을 적용했을 때 서로 다른 구성이 선택됩니다: 가장 높은 Pass/30은 qwen-coder를 사용하는 GLM-5.1을 선택하고, 가장 낮은 Tok./Pass는 kimi-cli를 사용하는 GPT-5.3-Codex를 선택하며, 가장 낮은 billable USD/Pass는 Codex를 사용하는 Qwen3.6+를 선택하는 반면, 가장 높은 AMS는 kimi-cli를 사용하는 Qwen3.6+를 선택합니다. Benchmark90 검증 결과는 Top-1 구성과 Top-3 세트를 유지하며, Spearman 상관계수 0.765, Kendall 상관계수 0.567, 그리고 AMS MAE 0.0383을 기록했습니다. 이러한 결과는 모델 선택과 CLI 선택이 분리되어서는 안 되며, 모델-CLI 구성이 배포된 하나의 단위로서 평가되어야 함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기