arXiv논문2026. 06. 04. 13:17

에이전트 계획 벤치마크: LLM 에이전트의 계획 능력 진단을 위한 프레임워크

요약

LLM 에이전트의 계획 능력을 정밀하게 진단하기 위한 새로운 벤치마크인 APB를 소개합니다. 기존의 단순 성공 여부 판별을 넘어, 계획 단계의 오류와 실행 단계의 오류를 구분하여 분석할 수 있는 프레임워크를 제공합니다.

핵심 포인트

에이전트의 계획 및 도구 선택 능력을 진단하는 APB 벤치마크 제안
22개 도메인과 4,209개의 멀티모달 사례를 포함한 방대한 데이터셋
MLLM의 장기 계획 및 도구 노이즈 강건성 측면의 약점 규명
APB 가이드를 통한 계획 정확도 및 실행 지표의 일관된 향상 확인

계획 (Planning)은 LLM 에이전트의 핵심입니다. 에이전트는 행동하기 전에 목표를 분해하고, 도구 (tools)를 선택하며, 제약 사항을 추론하고, 작업이 불가능한 시점을 결정해야 합니다. 그러나 기존의 에이전트 평가 방식은 종종 엔드 투 엔드 (end-to-end) 성공 여부만을 보고하기 때문에, 실패의 원인이 계획 (planning)에 있는지 아니면 실행 (execution)에 있는지 판단하기 어렵습니다. 우리는 22개 도메인과 5가지 설정에 걸쳐 4,209개의 멀티모달 (multimodal) 사례를 포함하는 계획 특화 진단 벤치마크인 \textbf{Agent Planning Benchmark (APB)}를 소개합니다. 이는 전체론적 계획 (holistic planning), 피드백 조건부 단계별 계획 (feedback-conditioned step-wise planning), 그리고 외부 도구, 고장 난 도구, 해결 불가능한 작업 하에서의 강건성 (robustness)을 다룹니다. 12개의 MLLM을 대상으로 한 실험에서 APB는 장기 계획 (long-horizon planning), 도구 노이즈 강건성 (tool-noise robustness), 보정된 거절 (calibrated refusal), 그리고 추론 시간 정교화 (inference-time refinement) 측면에서의 체계적인 약점을 드러냅니다. 우리는 더 나아가 200개의 ToolSandbox 작업과 200개의 $\tau^2$-bench 작업을 통해 APB를 검증하였으며, APB 가이드 정교화는 세 가지 대표 모델 전반에서 계획의 정확성 (plan correctness), 계획 등급 (plan grade), 그리고 다운스트림 실행 지표 (downstream execution metrics)를 일관되게 향상시켰습니다. 따라서 APB는 실행 벤치마크 (execution benchmarks)를 보완하는 상류 (upstream) 진단 도구로서 역할을 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

에이전트 계획 벤치마크: LLM 에이전트의 계획 능력 진단을 위한 프레임워크

요약

핵심 포인트

댓글