본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 23. 20:11

PlanBench-XL

요약

LLM 에이전트의 장기 계획 수립 능력을 평가하기 위한 새로운 벤치마크인 PlanBench-XL을 소개합니다. 도구의 실패나 정보 오류 등 복잡한 상황에서의 에이전트 성능을 측정하며, GPT-5.4 모델의 성능 변화를 분석합니다.

핵심 포인트

  • 1,665개의 도구와 327개의 소매 태스크로 구성된 벤치마크
  • 도구 실패 및 잘못된 정보 제공 등 장기 계획 능력 테스트
  • 심각한 차단 상황 발생 시 GPT-5.4의 성능 급락 확인

PlanBench-XL

도구가 실패하거나, 잘못된 정보를 제공하거나, 사라지는 상황에서 LLM 에이전트가 장기적인 계획 (long horizons)을 세울 수 있는지 테스트하는 1,665개의 도구와 327개의 소매 (retail) 태스크로 구성된 새로운 벤치마크 (benchmark)입니다.

GPT-5.4는 심각한 차단 (severe blocking) 상황에서 52%에서 11%로 성능이 급락합니다. https://t.co/tUK30pzMVf

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0