arXiv논문2026. 06. 29. 11:24

월드 모델을 위한 텍스트 기반 신념 상태: 엄격한 중재 하에서의 식별 가능한 표현 학습

요약

부분적으로 관찰되는 환경에서 월드 모델의 잠재 상태 식별 문제를 해결하기 위한 새로운 연구를 소개합니다. 텍스트 기반의 이산적 잠재 상태를 활용하며, 엄격한 중재를 강제하는 fGRPO 알고리즘을 통해 예측 및 작업 수행 성능을 크게 향상시켰습니다.

핵심 포인트

LLM 기반 월드 모델의 이력 우회(history bypass) 현상 분석
엄격한 잠재 상태 중재를 통한 표현 품질 개선 방법론 제시
이산적 텍스트 잠재 상태 학습을 위한 fGRPO 알고리즘 도입
TextWorld 및 ScienceWorld 실험에서 작업 성능 최대 98% 향상

부분적으로 관찰되는 환경(partially observed environments)에서의 월드 모델(World models)은 상호작용 이력을 요약하는 잠재 표현(latent representations)에 의존하지만, 많은 현대적인 LLM 기반 아키텍처에서는 이력 우회(history bypass) 현상으로 인해 예측 성능이 표현 품질을 반영하지 못하며, 이로 인해 잠재 상태(latent state)를 식별할 수 없게 됩니다. 예측이 오직 잠재 상태와 행동(action)에만 의존하도록 요구하는 엄격한 잠재 상태 중재(Strict latent state mediation)는 이를 해결하는 고전적인 원칙이지만, 텍스트 기반 설정에서 이를 강제하는 것은 미해결 과제입니다. 텍스트 잠재 상태는 이산적(discrete)이고 미분 불가능(non-differentiable)하여 변분 학습(variational training)을 가로막으며, 표현력이 뛰어난 LLM 디코더(decoders)는 병목(bottleneck)을 쉽게 무시하기 때문입니다. 본 논문에서는 텍스트 도메인에서 엄격한 중재가 작동하게 하는 방법을 보여줍니다. 우리는 엄격한 중재가 왜 필요한지를 공식화하며, 엄격한 중재가 표현 품질을 경험적으로 테스트 가능하게 만드는 반면, 이력이 누출되는(history-leaky) 아키텍처는 이 연결을 깨뜨린다는 것을 보여줍니다. 그런 다음 우리는 이산적이고 해석 가능하며 가변 길이를 갖는 텍스트 잠재 상태와, 학습 과정에서 엄격한 중재를 강제하는 트리 구조의 강화학습(reinforcement learning) 방법인 분해된 GRPO (fGRPO, factorized GRPO)를 소개합니다. TextWorld 및 ScienceWorld에서의 실험 결과, 1단계 예측 정확도를 유지하면서도 표현 품질은 최대 57% 향상되었고, 롤아웃(rollout) 성능은 작업 복잡도와 호라이즌(horizon)이 증가함에 따라 최대 98% 개선됨을 확인했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

월드 모델을 위한 텍스트 기반 신념 상태: 엄격한 중재 하에서의 식별 가능한 표현 학습

요약

핵심 포인트

댓글