PlanBench-XL: 대규모 도구 생태계에서 LLM 도구 사용 에이전트의 장기 계획(Long-Horizon Planning) 평가
요약
대규모 도구 생태계에서 LLM 에이전트의 장기 계획 능력을 평가하기 위한 새로운 벤치마크 PlanBench-XL을 소개합니다. 1,665개의 도구와 327개의 작업을 통해 에이전트의 도구 검색, 하위 목표 추론 및 환경 변화에 대한 적응력을 테스트합니다.
핵심 포인트
- 1,665개의 도구를 활용한 대규모 도구 생태계 벤치마크 제안
- 도구 누락 및 실패를 시뮬레이션하는 선택적 차단 메커니즘 도입
- 실험 결과, 대규모 도구 환경에서의 장기 계획은 여전히 매우 어려운 과제임이 확인됨
- 에이전트가 오류 신호 부재 및 긴 대안 경로 필요 시 취약함을 발견
LLM 에이전트들은 점점 더 대규모 도구 생태계 내에서 작동하고 있으며, 실제 세계의 작업들은 관련 도구를 발견하고, 암시적인 하위 목표(sub-goals)를 추론하며, 장기적인 관점(long horizons)에서 동적인 환경에 적응할 것을 요구합니다. 그러나 기존의 벤치마크들은 검색이 제한된 도구 가시성(tool visibility) 하에서의 계획 능력을 평가하는 경우가 드뭅니다. 이러한 격차를 해소하기 위해, 우리는 1,665개의 도구에 걸친 327개의 소매(retail) 작업을 포함하는 대화형 벤치마크인 PlanBench-XL을 소개합니다. 이는 에이전트가 사용 가능한 도구를 반복적으로 검색하고, 이를 호출하여 최종 목표를 향한 후속 호출을 위한 중간 증거를 발견할 수 있는지 테스트합니다. PlanBench-XL은 더 나아가 도구 기능의 누락, 실패 또는 주의 분산을 통해 실제 세계의 예측 불가능성을 시뮬레이션하여, 에이전트가 중단된 경로를 감지하고 실행 시간(runtime)에 적응하도록 강제하는 선택적 차단(blocking) 메커니즘을 특징으로 합니다. 10개의 선도적인 LLM을 대상으로 한 실험 결과, 대규모 도구 계획은 여전히 어려운 과제임이 드러났습니다. GPT-5.4는 차단이 없는 설정에서 51.90%의 정확도를 달성했지만, 가장 심각한 차단 조건에서는 11.36%로 급락했습니다. 추가 분석에 따르면, 에이전트들은 실패에 명시적인 오류 신호가 없거나 복구를 위해 더 긴 대안적 도구 사용 경로가 필요할 때 특히 취약한 것으로 나타났습니다. 이러한 결과는 PlanBench-XL을 에이전트의 계획 실패를 진단하기 위한 테스트베드로 확립하며, 대규모의 불완전한 도구 환경을 가진 장기 작업에서 견고한 적응형 계획(adaptive planning)의 필요성을 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기