언어 모델 사전 지식 (Language-Model Priors)을 활용한 관측 기반 POMDP 월드 모델 학습
요약
본 논문은 언어 모델 사전 지식(Language-model priors)을 활용하여 부분 관측 마르코프 결정 과정(POMDPs)의 월드 모델 학습 문제를 해결하는 Pinductor를 소개합니다. Pinductor는 LLM이 소수의 관측-행동 궤적만으로 후보 POMDP 모델들을 제안하고, 신념 기반 가능도 점수를 최적화하며 모델을 정제합니다. 이 방법은 적은 정보로 높은 샘플 효율성을 달성하여 기존의 LLM 기반 또는 표 형식(Tabular) POMDP 학습 방식보다 우수한 성능을 보입니다.
핵심 포인트
- Pinductor는 언어 모델 사전 지식을 활용하여 POMDP 월드 모델 학습의 데이터 요구량을 줄입니다.
- LLM이 소수의 관측-행동 궤적만으로 후보 POMDP 모델들을 제안하고 정제하는 과정을 거칩니다.
- Pinductor는 높은 샘플 효율성을 보여, 기존 LLM 기반 및 표 형식(Tabular) 베이스라인을 능가합니다.
- 모델의 성능은 사용된 LLM의 능력에 비례하며, 환경의 의미론적 정보가 제한될 때 점진적으로 저하됩니다.
건물을 탐색하든, 로봇을 작동시키든, 혹은 게임을 플레이하든, 환경에서 효과적으로 행동하는 에이전트(Agent)는 먼저 해당 환경이 어떻게 작동하는지에 대한 내부 모델을 학습해야 합니다. 부분 관측 마르코프 결정 과정 (Partially-observable Markov decision processes, POMDPs)은 이러한 내부 월드 모델 (World Models)을 위한 유연한 모델링 클래스를 제공하지만, 관측-행동 궤적 (Observation-action trajectories)만으로 이를 학습하는 것은 도전적인 과제이며 일반적으로 광범위한 환경 상호작용을 필요로 합니다. 우리는 언어 모델 사전 지식 (Language-model priors)이 기존 지식을 활용함으로써 비용이 많이 드는 상호작용을 줄일 수 있는지 질문하며, extit{Pinductor} (POMDP-inductor)를 소개합니다. extit{Pinductor}는 LLM이 몇 개의 관측-행동 궤적으로부터 후보 POMDP 모델들을 제안하고, 신념 기반 가능도 점수 (Belief-based likelihood score)를 최적화하기 위해 이를 반복적으로 정제합니다. 엄격하게 더 적은 정보를 사용함에도 불구하고, extit{Pinductor}는 은닉 상태 (Hidden state)에 대한 특권적 접근 (Privileged access)을 가정하는 LLM 기반 POMDP 학습 방법의 성능 및 샘플 효율성 (Sample efficiency)과 일치하며, 표 형식 (Tabular) POMDP 베이스라인의 샘플 효율성을 크게 능가합니다. 추가적인 결과에 따르면 성능은 LLM의 능력에 따라 확장되며, 환경에 대한 의미론적 정보 (Semantic information)가 제한될 때 점진적으로 저하됩니다. 종합적으로, 이러한 결과들은 언어 모델 사전 지식을 부분 관측성 (Partial observability) 하에서의 샘플 효율적인 월드 모델 학습을 위한 실용적인 도구이자, 실제 환경에서의 범용 에이전트 (Generalist agents)로 나아가는 단계로 자리매김합니다. 코드는 https://github.com/atomresearch/pinductor 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기