본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 14. 06:50

PriorZero: 의사결정을 위한 언어 사전 지식(Language Priors)과 세계 모델(World Models)의 결합

요약

PriorZero는 LLM의 언어적 사전 지식과 세계 모델(World Model) 기반 계획을 결합하여 강화 학습 에이전트의 성능을 높이는 통합 프레임워크입니다. 기존 방식의 한계인 사전 지식과 환경 역학 간의 불일치를 해결하기 위해, MCTS 루트 노드에만 사전 지식을 주입하고 세계 모델 학습과 LLM 미세 조정을 분리하는 설계를 채택했습니다. 이를 통해 탐색 효율성과 최종 성능을 모두 개선하며 다양한 벤치마크에서 그 효과를 입증했습니다.

핵심 포인트

  • LLM의 정적 지식과 환경의 동적 역학 사이의 불일치(prior-dynamics mismatch) 문제 해결
  • MCTS 루트 노드에만 LLM 지식을 주입하는 '루트-사전 주입' 메커니즘을 통해 탐색의 다양성 보존
  • 세계 모델 학습과 LLM 미세 조정을 분리하여 최적화 불안정성 및 신용 할당 문제 완화
  • Jericho 및 BabyAI 벤치마크를 통해 탐색 효율성과 점근적 성능 향상 증명

Large Language Models (LLMs)의 풍부한 세상 지식을 활용하여 Reinforcement Learning (RL) 에이전트를 강화하는 것은 범용 지능(General Intelligence)을 향한 유망한 경로를 제공합니다. 그러나 근본적인 사전-역학 불일치(prior-dynamics mismatch)가 기존 방식들을 저해하고 있습니다. 즉, 정적인 LLM 지식은 장기적 과제(long-horizon tasks)의 복잡한 전이 역학(transition dynamics)에 직접적으로 적응할 수 없습니다. LLM 사전 지식(priors)을 고정된 정책(fixed policies)으로 사용하는 것은 사전 지식이 환경 특유의 역학에 무지하기 때문에 탐색의 다양성(exploration diversity)을 제한하며, 엔드투엔드 미세 조정(end-to-end fine-tuning)은 최적화 불안정성과 신용 할당(credit assignment) 문제로 어려움을 겪습니다.

이 간극을 메우기 위해, 우리는 분리된 롤아웃-학습(decoupled rollout-training) 설계를 통해 LLM에서 유도된 개념적 사전 지식을 세계 모델 기반 계획(world-model-based planning)에 통합하는 통합 프레임워크인 PriorZero를 제안합니다. 롤아웃(rollout) 과정에서, 새로운 루트-사전 주입(root-prior injection) 메커니즘은 Monte Carlo Tree Search (MCTS)의 루트 노드에서만 독점적으로 LLM 사전 지식을 통합하여, 세계 모델의 심층 탐색(deep lookahead) 능력을 보존하면서도 의미론적으로 유망한 행동에 탐색을 집중시킵니다. 학습 과정에서 PriorZero는 세계 모델 학습을 LLM 적응으로부터 분리합니다. 세계 모델은 상호작용 데이터 상에서 지속적으로 정교화되어 역학(dynamics), 정책(policy), 가치 예측(value predictions)을 공동으로 개선하며, 이후 이 가치 추정치(value estimates)는 교대 최적화(alternating optimization)를 통해 안정적인 LLM 미세 조정을 위한 세밀한 신용 할당 신호를 제공하는 데 활용됩니다.

Jericho의 텍스트 기반 어드벤처 게임과 BabyAI의 지시 이행 그리드월드(gridworld) 과제를 포함한 다양한 벤치마크에서의 실험은 PriorZero가 탐색 효율성과 점근적 성능(asymptotic performance)을 모두 일관되게 향상시킨다는 것을 입증하며, LLM 기반 의사결정을 위한 유망한 프레임워크를 구축합니다. 우리의 코드는 https://github.com/opendilab/LightZero 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0