다음 관측 예측을 넘어: 순차적 의사결정을 위한 에이전트 주도형 월드 모델링 (Agent-Authored World Modeling)
요약
LLM 에이전트의 월드 모델링을 위해 단순한 다음 관측 예측 대신, 에이전트의 의사결정에 필요한 역학을 포착하는 AAWM 방식을 제안합니다. 실험을 통해 의사결정 지향적 학습 목표가 기존 방식보다 더 효과적인 학습 신호를 제공함을 입증했습니다.
핵심 포인트
- 기존의 다음 관측 예측 방식이 가진 한계점 지적
- 에이전트의 의사결정 요구 사항에 맞춘 AAWM 학습 절차 제안
- 의사결정 지향적 역학을 포착하는 학습 목표 합성
- 다양한 환경 실험을 통해 AAWM의 효과성 입증
대규모 언어 모델 (LLM) 에이전트를 위한 월드 모델링 (world modeling)에 관한 최근 연구들은 일반적으로 학습 목표를 다음 관측 예측 (next-observation prediction)으로 공식화합니다. 그러나 이러한 목표는 감독 (supervision)을 전이 (transition)가 드러내는 내용에 종속시키며, 이는 에이전트의 현재 의사결정에 가장 관련 있는 역학 (dynamics)을 누락할 수 있습니다. 이러한 격차를 해소하기 위해, 우리는 정책 (policy) 자체의 의사결정 요구 사항으로부터 감독을 구축하는 학습 절차인 에이전트 주도형 월드 모델링 (Agent-Authored World Modeling, AAWM)을 제안합니다. 구체적으로, 각 상태 (state)에서 에이전트는 행동하기 전에 환경에 대해 무엇을 이해해야 하는지 식별합니다. 이러한 요구 사항은 궤적 (trajectories) 전반에 걸쳐 관련 전이 증거를 검색하도록 유도하며, 이는 다음 관측을 재구성하는 대신 의사결정 지향적 역학 (decision-oriented dynamics)을 포착하는 학습 목표 (training targets)로 합성됩니다. 이는 학습 목표를 다음 관측의 내용이 아니라, 정책이 행동하기 전에 필요로 하는 역학에 정렬시킵니다. 실험 결과는 다양한 환경과 학습 설정에서 AAWM의 효과를 입증합니다. 이러한 결과는 의사결정 인지적 월드 모델 목표 (decision-aware world-model targets)가 다음 관측 예측보다 더 효과적인 학습 신호 (learning signal)를 제공함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기