arXiv논문2026. 06. 03. 11:04

월드 모델과 언어 모델의 만남: 구체적 추론과 추상적 추론의 상호 보완성에 대하여

요약

월드 모델의 구체적 시각적 시뮬레이션과 MLLM의 추상적 추론을 결합하는 '제어된 구체적 추론' 방식을 제안합니다. PF-OPSD 학습법을 통해 미래 비디오를 직접 관찰하지 않고도 정확한 예측과 추론을 수행하며, 벤치마크 테스트에서 성능 향상을 입증했습니다.

핵심 포인트

월드 모델의 시각적 롤아웃과 MLLM의 추상적 추론 상호 보완
제어된 구체적 추론(controlled concrete reasoning) 프레임워크 제안
PF-OPSD 학습법을 통한 미래 예측 및 답변 통합 능력 강화
VRQABench 및 OpenWorldQA 벤치마크에서 성능 10% 이상 향상

월드 모델 (World models)과 멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLMs)은 정적인 시각적 관찰로부터 미래의 결과를 예측하는 데 있어 상호 보완적인 능력을 제공합니다. 월드 모델은 가능한 미래에 대한 구체적인 시각적 롤아웃 (visual rollouts)을 생성할 수 있는 반면, MLLM은 질문, 목표 및 규칙에 대해 추상적으로 추론할 수 있습니다. 그러나 생성된 롤아웃은 확률적 (stochastic)이며, 시각적으로는 그럴듯해 보일 수 있지만 작업 측면에서는 부정확할 수 있습니다. 따라서 시각적 시뮬레이션이 언제 유용한지, 롤아웃이 신뢰할 수 있는지, 그리고 그것이 최종 답변에 어떻게 영향을 미쳐야 하는지를 결정하는 것이 필요합니다. 우리는 이 문제를 제어된 구체적 추론 (controlled concrete reasoning)으로 공식화하며, 여기서 모델은 추상적 추론과 함께 시각적 미래 시뮬레이션을 호출, 검증 및 통합하는 법을 학습합니다. 이 설정을 연구하기 위해, 우리는 제어 가능한 공간적 앞보기 (spatial lookahead)를 위한 VRQABench와 오픈 도메인 물리 예측을 위한 OpenWorldQA라는 두 가지 인간 검증 벤치마크를 구축하고, 특권 미래 온-폴리시 자기 증류 (Privileged-Future On-Policy Self-Distillation, PF-OPSD)를 제안합니다. 학습 과정에서 PF-OPSD는 정답 미래 비디오와 답변을 오직 교사 측의 특권 컨텍스트 (privileged context)로만 사용하여 온-폴리시 구체적 추론 궤적을 평가하며, 배포 가능한 학생 모델은 테스트 시점에 실제 미래를 관찰하지 않습니다. 실험 결과에 따르면 PF-OPSD는 VRQABench와 OpenWorldQA에서 각각 베이스라인 대비 10.6%와 10.9% 성능을 상회하였으며, 노이즈가 있거나 상충하는 롤아웃에 대한 강건성 (robustness)을 향상시켰습니다. 우리의 코드와 데이터셋은 https://github.com/yczhou001/PF-OPSD 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

월드 모델과 언어 모델의 만남: 구체적 추론과 추상적 추론의 상호 보완성에 대하여

요약

핵심 포인트

댓글