arXiv논문2026. 05. 21. 10:53

PlanningBench: 대규모 언어 모델(LLMs)의 평가 및 학습을 위한 확장 가능하고 검증 가능한 플래닝 데이터 생성

요약

PlanningBench는 LLM의 플래닝 능력을 평가하고 학습시키기 위해 설계된 확장 가능하고 검증 가능한 데이터 생성 프레임워크입니다. 기존의 고정된 벤치마크와 달리, 구조화된 분류 체계를 통해 다양한 난이도와 제약 조건을 가진 플래닝 문제를 합성하고 자동 검증할 수 있습니다. 연구 결과, PlanningBench 데이터를 활용한 강화학습이 모델의 플래닝 및 지시 이행 능력을 유의미하게 향상시킴을 확인했습니다.

핵심 포인트

기존 고정형 벤치마크의 한계를 극복하기 위해 제어 가능한 데이터 생성을 지원하는 프레임워크 제안
30개 이상의 작업 유형과 제약 조건군을 포함하는 구조화된 분류 체계(Taxonomy) 구축
적응형 난이도 제어 및 인스턴스 수준의 검증 체크리스트를 통한 데이터 품질 확보
PlanningBench 데이터를 활용한 강화학습이 LLM의 일반화된 플래닝 성능을 개선함
명확한 보상 신호를 제공하는 결정론적 솔루션이 안정적인 학습 역학을 제공함을 발견

플래닝 (Planning)은 대규모 언어 모델 (LLMs)의 근본적인 능력입니다. 왜냐하면 이러한 복잡한 작업은 모델이 목표, 제약 조건, 자원 및 장기적인 결과를 실행 가능하고 검증 가능한 솔루션으로 조정할 것을 요구하기 때문입니다. 그러나 기존의 플래닝 벤치마크 (planning benchmarks)는 일반적으로 플래닝 데이터를 제어 가능한 생성 대상이라기보다 고정된 인스턴스 집합으로 취급합니다. 이는 시나리오 범위를 제한하고, 난이도를 구조적 원인이 아닌 표면적인 대리 지표에 종속시키며, 확장 가능한 생성, 자동 검증 또는 플래닝 중심의 학습에 대한 지원을 제한합니다.

우리는 평가와 학습 모두를 위해 확장 가능하고, 다양하며, 검증 가능한 플래닝 데이터를 생성하기 위한 프레임워크인 PlanningBench를 소개합니다. PlanningBench는 실제 플래닝 시나리오에서 시작하여 실질적인 워크플로우를 30개 이상의 작업 유형, 하위 작업 (subtasks), 제약 조건군 (constraint families) 및 난이도 요인으로 구성된 구조화된 분류 체계 (taxonomy)로 추상화합니다. 이 분류 체계의 안내에 따라, 제약 조건 기반 합성 파이프라인 (constraint-driven synthesis pipeline)은 적응형 난이도 제어, 품질 필터링 및 인스턴스 수준의 검증 체크리스트를 갖춘 자기 완결적인 플래닝 문제를 구체화합니다. 이는 플래닝 데이터 구축을 현실적인 작업 근거 (task grounding)를 유지하면서 고정된 벤치마크 수집에서 제어 가능한 생성으로 전환합니다.

우리는 PlanningBench를 사용하여 오픈 소스 및 폐쇄형 프런티어 LLMs를 평가하였으며, 현재 모델들이 결합된 제약 조건 하에서 완전한 솔루션을 생성하는 데 여전히 어려움을 겪고 있음을 발견했습니다. 평가를 넘어, 검증된 PlanningBench 데이터에 대한 강화학습 (reinforcement learning)은 학습되지 않은 플래닝 벤치마크 및 더 넓은 지시 이행 (instruction-following) 작업에서의 성능을 향상시킵니다. 추가 분석에 따르면, 결정론적이거나 잘 명시된 최적의 솔루션이 더 명확한 보상 신호 (reward signals)와 더 안정적인 학습 역학 (training dynamics)을 제공한다는 것을 시사합니다. 전반적으로, PlanningBench는 LLMs의 일반화 가능한 플래닝 능력을 진단하고 개선하기 위한 제어 가능한 플래닝 데이터 소스를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

PlanningBench: 대규모 언어 모델(LLMs)의 평가 및 학습을 위한 확장 가능하고 검증 가능한 플래닝 데이터 생성

요약

핵심 포인트

댓글