자기 진화형 월드 모델을 위한 반사실적 제어 가능성을 갖춘 자율 비디오 생성
요약
비디오 생성 모델이 단순한 시각적 예측을 넘어, 반사실적 제어 가능성을 갖춘 자기 진화형 월드 모델로 나아가야 함을 제안합니다. 특정 행동에 따른 미래를 예측하고 신체화 제약을 검증하며, 이를 다시 생성 과정에 피드백하는 메커니즘을 강조합니다.
핵심 포인트
- 비디오 생성 모델은 암시적 월드 모델이지만 완전한 제어는 어려움
- 단순 예측적 리얼리즘을 넘어 반사실적 제어 가능성이 핵심 프런티어
- 신체화 제약(embodiment constraints)을 견디는 생성 능력 필요
- 행동 지식을 미래 생성에 다시 피드백하는 자기 진화적 구조 제안
기존 문헌들은 비디오 생성이 본질적으로 월드 모델링 (world modelling)이라고 주장합니다. 한편으로, 이러한 주장은 생성형 AI (generative AI)를 정적인 이미지 너머로 밀어붙여 시간적으로 확장된 물리적 장면으로 나아가게 한다는 점에서 생산적입니다. 다른 한편으로, 이 주장은 시각적 예측 (visual prediction)의 스케일링만으로 물리적 에이전트 (physical agents)가 자동으로 생성될 것이라는 믿음에 위험하게 의존하고 있습니다. 우리는 더 정확한 진술을 선호합니다: 비디오 생성 모델은 부분적이고 암시적인 시공간적 월드 모델 (spatiotemporal world model)을 학습하지만, 완전히 접지되거나 (grounded) 제어 가능한 모델은 아니라는 점입니다. 그 이유는 다음과 같습니다: 모델은 드론이 숲을 가로지르거나 로봇 팔이 컵을 조작하는 그럴듯한 비디오를 생성할 수는 있지만, 어떤 변수가 제어 가능한지, 어떤 제약 조건이 특정 신체에 속하는지, 그리고 개입 (intervention) 하에서 어떤 미래가 여전히 유효한지를 여전히 파악하지 못할 수 있습니다. 본질적인 프런티어는 단순히 예측적 리얼리즘 (predictive realism)만이 아니라, 반사실적 제어 가능성 (counterfactual controllability)을 결정적 기준으로 요구하는 자기 진화적 생성 특성을 강조합니다. 즉, 특정 행동 하에서 어떤 일이 일어날지 질문하고, 생성된 미래가 신체화 제약 (embodiment constraints)을 견뎌낼 수 있는지 테스트하며, 결과로 얻은 행동 지식을 미래의 상상 (생성)으로 다시 피드백하는 능력을 의미합니다. 따라서 본 논문에서 우리는 새로운 관점, 즉 반사실적 제어 가능성을 갖춘 자율 비디오 생성이 자기 진화형 월드 모델을 실현하는 하나의 유망한 방법임을 제시합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기