arXiv논문2026. 06. 26. 10:52

Look-Before-Move: 역동적인 3D 스토리 월드에서의 서사 기반 세계 시각적 주의 집중 (Narrative-Grounded

요약

역동적인 3D 환경에서 카메라가 서사적 의도에 따라 능동적으로 시각적 주의를 집중할 수 있도록 하는 Look-Before-Move 프레임워크를 제안합니다. 관찰 사양과 움직임 실행을 분리하여 서사에 부합하면서도 물리적으로 실행 가능한 카메라 경로를 생성합니다.

핵심 포인트

서사 기반의 시각적 주의 집중을 위한 카메라 계획 프레임워크 제안
의미론적 관찰 계약을 통해 연출 의도를 시각적 제약 조건으로 변환
몬테카를로 시점 탐색을 통한 기하학적 실행 가능 시점 확보
StoryBlender 기반의 역동적인 3D 스토리 월드 벤치마크 구축
기존 모델 대비 주체 인지 및 의도 일관성 성능 향상 입증

Embodied AI (체화된 인공지능) 및 세계 모델 (World Models)이 역동적인 3D 환경에서 점점 더 많이 작동함에 따라, 시각적 인지 (Visual Perception)는 주어진 관찰을 수동적으로 해석하는 것을 넘어 무엇을 관찰할지 능동적으로 결정하는 방향으로 나아가야 합니다. 우리는 역동적인 3D 스토리 월드에서의 카메라 계획 (Camera Planning)을 통해 이 문제를 연구하며, 여기서 카메라는 매끄러운 움직임을 생성할 뿐만 아니라 이동하기 전에 어떤 시각적 증거를 획득해야 하는지도 결정해야 합니다. 우리는 이 능력을 서사 기반 세계 시각적 주의 집중 (Narrative-Grounded World Visual Attention)으로 공식화하며, 여기서 카메라는 서사적 의도 (Narrative Intent)와 물리적 3D 제약 조건 하에서 무엇을 관찰할지, 관찰을 어떻게 구성할지, 그리고 시간에 따라 주의를 어떻게 전환할지를 결정하는 체화된 관찰자 (Embodied Observer) 역할을 수행합니다. 이 능력을 구현하기 위해, 우리는 관찰 사양 (Observation Specification)과 움직임 실행 (Motion Execution)을 분리하는 카메라 계획 프레임워크인 Look-Before-Move를 제안합니다. 이 프레임워크는 먼저 연출 의도를 실행 가능한 시각적 제약 조건으로 변환하는 의미론적 관찰 계약 (Semantic Observation Contract)을 구축하고, 서사에 부합하며 기하학적으로 실행 가능한 시점 (Viewpoints)을 찾기 위해 몬테카를로 시점 탐색 (Monte Carlo Viewpoint Search)을 수행하며, 마지막으로 선택된 시점들을 충돌을 인식하고 시간적으로 일관된 연속적인 카메라 움직임으로 연결하기 위해 의미론적 궤적 접지 (Semantic Trajectory Grounding)를 적용합니다. 나아가 우리는 애니메이션 캐릭터, 의미론적 장면 구성, 실행 가능한 3D 환경을 포함하여 50개의 스토리, 457개의 장면, 1585개의 샷을 다루는 StoryBlender 기반의 역동적인 3D 스토리 월드 벤치마크를 구축했습니다. 실험 결과, 우리의 프레임워크는 대표적인 베이스라인 모델들에 비해 주체 인지 (Subject Perception), 의도 일관성 (Intent Consistency), 궤적 품질 (Trajectory Quality)을 개선하며, 카메라 움직임을 생성하기 전에 시각적 주의를 조직하는 것의 중요성을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Look-Before-Move: 역동적인 3D 스토리 월드에서의 서사 기반 세계 시각적 주의 집중 (Narrative-Grounded

요약

핵심 포인트

댓글