본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 01:31

SceneForge: 3D 개입을 통한 구조화된 세계 감독 (Structured World Supervision)

요약

SceneForge는 편집 가능한 3D 세계 상태를 활용하여 멀티모달 학습을 위한 구조화된 감독(Supervision)을 생성하는 프레임워크입니다. 장면의 의미적, 기하학적, 물리적 의존성을 유지하며 객체 제거 및 카메라 변화와 같은 명시적 개입을 적용함으로써, 일관성 있는 반사실적 관찰과 다중 시점 데이터를 생성합니다. 이를 통해 객체 및 장면 제거 성능을 크게 향상시키는 라이선스 프리 실내 감독 리소스를 구축했습니다.

핵심 포인트

  • 3D 세계 상태를 기반으로 의미적, 기하학적, 물리적 의존성을 유지하는 구조화된 감독 생성
  • 단순 이미지 처리가 아닌 공유된 세계 상태로부터 반사실적 관찰 및 다중 시점 데이터 유도
  • Infinigen과 Blender를 활용하여 2,000개 이상의 장면을 포함한 대규모 데이터셋 구축
  • 객체 제거 및 장면 제거 벤치마크에서 정량적·정성적 성능 향상 입증

많은 멀티모달 학습 (Multimodal learning) 태스크는 편집, 시점, 그리고 장면 수준의 개입 (Scene-level interventions) 전반에 걸쳐 일관되게 유지되는 감독 (Supervision)을 필요로 합니다. 그러나 이러한 감독은 관찰 수준 (Observation-level)의 데이터셋으로부터 얻기가 어려운데, 이러한 데이터셋은 기저에 깔린 장면 상태 (Scene state)나 변화가 장면을 통해 어떻게 전파되는지를 드러내지 않기 때문입니다. 우리는 편집 가능한 3D 세계 상태 (3D world states)로부터 구조화된 감독을 생성하는 개입 주도형 프레임워크 (Intervention-driven framework)인 SceneForge를 제안합니다. SceneForge는 각 장면을 의미적 (Semantic), 기하학적 (Geometric), 그리고 물리적 의존성 (Physical dependencies)을 가진 지속적인 세계 (Persistent world)로 표현합니다. 명시적인 개입 (Explicit interventions, 예: 객체 제거 또는 카메라 변화)을 적용하고 그 효과를 장면 의존성을 통해 전파함으로써, SceneForge는 객체 구조 및 장면 수준의 효과와 일관성을 유지하는 감독을 렌더링합니다. 이를 통해 사후 이미지 공간 처리 (Post hoc image-space processing)가 아닌 공유된 세계 상태로부터 유도된 반사실적 관찰 (Counterfactual observations), 다중 시점 관찰 (Multi-view observations), 그리고 그림자 및 반사와 같은 효과 인지 신호 (Effect-aware signals)를 포함한 정렬된 출력물을 생성합니다. 우리는 Infinigen과 Blender를 사용하여 SceneForge를 구현함으로써, 2,000개 이상의 장면으로부터 도출된 방대한 양의 반사실적 쌍 (Counterfactual pairs)과 정렬된 주석 (Aligned annotations)을 포함하며, 다양한 단일 시점 및 등록된 다중 시점 (Registered multi-view) 설정을 모두 아우르는 라이선스 문제가 없는 실내 감독 리소스를 구축했습니다. 동일한 학습 예산 하에서, SceneForge 감독을 통합하는 것은 정량적 및 정성적 평가 모두에서 여러 벤치마크에 걸쳐 객체 제거 (Object removal)와 장면 제거 (Scene removal) 성능을 모두 향상시킵니다. 이러한 결과는 감독을 편집 가능한 세계에서의 구조화된 상태 전이 (Structured state transitions)로 모델링하는 것이 개입 일관적 (Intervention-consistent) 멀티모달 학습을 위한 실용적이고 확장 가능한 기반을 제공함을 나타냅니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0