본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 03. 11:04

월드 모델과 언어 모델의 만남: 구체적 추론과 추상적 추론의 상호 보완성에 대하여

요약

월드 모델의 구체적 시각적 시뮬레이션과 MLLM의 추상적 추론을 결합하는 '제어된 구체적 추론' 방식을 제안합니다. PF-OPSD 학습법을 통해 미래 비디오를 직접 관찰하지 않고도 정확한 예측과 추론을 수행하며, 벤치마크 테스트에서 성능 향상을 입증했습니다.

핵심 포인트

  • 월드 모델의 시각적 롤아웃과 MLLM의 추상적 추론 상호 보완
  • 제어된 구체적 추론(controlled concrete reasoning) 프레임워크 제안
  • PF-OPSD 학습법을 통한 미래 예측 및 답변 통합 능력 강화
  • VRQABench 및 OpenWorldQA 벤치마크에서 성능 10% 이상 향상

월드 모델 (World models)과 멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLMs)은 정적인 시각적 관찰로부터 미래의 결과를 예측하는 데 있어 상호 보완적인 능력을 제공합니다. 월드 모델은 가능한 미래에 대한 구체적인 시각적 롤아웃 (visual rollouts)을 생성할 수 있는 반면, MLLM은 질문, 목표 및 규칙에 대해 추상적으로 추론할 수 있습니다. 그러나 생성된 롤아웃은 확률적 (stochastic)이며, 시각적으로는 그럴듯해 보일 수 있지만 작업 측면에서는 부정확할 수 있습니다. 따라서 시각적 시뮬레이션이 언제 유용한지, 롤아웃이 신뢰할 수 있는지, 그리고 그것이 최종 답변에 어떻게 영향을 미쳐야 하는지를 결정하는 것이 필요합니다. 우리는 이 문제를 제어된 구체적 추론 (controlled concrete reasoning)으로 공식화하며, 여기서 모델은 추상적 추론과 함께 시각적 미래 시뮬레이션을 호출, 검증 및 통합하는 법을 학습합니다. 이 설정을 연구하기 위해, 우리는 제어 가능한 공간적 앞보기 (spatial lookahead)를 위한 VRQABench와 오픈 도메인 물리 예측을 위한 OpenWorldQA라는 두 가지 인간 검증 벤치마크를 구축하고, 특권 미래 온-폴리시 자기 증류 (Privileged-Future On-Policy Self-Distillation, PF-OPSD)를 제안합니다. 학습 과정에서 PF-OPSD는 정답 미래 비디오와 답변을 오직 교사 측의 특권 컨텍스트 (privileged context)로만 사용하여 온-폴리시 구체적 추론 궤적을 평가하며, 배포 가능한 학생 모델은 테스트 시점에 실제 미래를 관찰하지 않습니다. 실험 결과에 따르면 PF-OPSD는 VRQABench와 OpenWorldQA에서 각각 베이스라인 대비 10.6%와 10.9% 성능을 상회하였으며, 노이즈가 있거나 상충하는 롤아웃에 대한 강건성 (robustness)을 향상시켰습니다. 우리의 코드와 데이터셋은 https://github.com/yczhou001/PF-OPSD 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0