ROAR-3D: 고충실도 3D 생성을 위한 임의 시점 라우팅 (Routing Arbitrary Views for High-Fidelity 3D
요약
ROAR-3D는 단일 이미지 기반 3D 생성 모델의 한계를 극복하기 위해, 포즈 정보가 없는 임의의 다중 시점 이미지를 수용할 수 있는 경량 방법론입니다. 토큰 단위 뷰 라우터와 이중 스트림 어텐션 설계를 통해 방향 제어와 기하학적 전이 간의 충돌을 해결하며, 최소한의 파라미터 추가만으로 고품질의 3D 생성을 구현합니다.
핵심 포인트
- 포즈 정보가 없는(unposed) 임의의 수의 이미지를 입력으로 사용할 수 있는 유연성 제공
- 토큰 단위 뷰 라우터를 통해 명시적 포즈 입력 없이도 2D-to-3D 대응 관계 설정
- 이중 스트림 어텐션 설계를 통해 기본 시점의 동작 보존과 보조 시점의 기하학적 풍부화 동시 달성
- 단일 시점 모델 대비 무시할 수 있는 수준의 추론 오버헤드와 최소한의 학습 파라미터 사용
- 1개에서 12개 이상의 시점까지 확장 가능한 뷰 스케일링(view scaling) 지원
단일 이미지 기반 3D 생성 모델 (Single-image-to-3D generative models)은 이제 고품질의 기하학적 구조 (geometry)를 생성할 수 있지만, 단일 시점에 의존하는 조건부 생성 (conditioning)은 보이지 않는 영역에 대한 모호성을 필연적으로 유발합니다. 다중 시점 조건부 생성 (Multi-view conditioning)은 이러한 모호성을 줄일 수 있지만, 기존 방법들은 고정된 정준 시점 (canonical viewpoints)을 요구하거나, 막대한 학습 비용을 초래하고 생성 품질을 제한하는 외부 재구성 모듈 (external reconstruction modules)에 의존합니다. 우리는 사전 학습된 단일 시점 모델이 다중 시점 조건부 생성을 위해 재사용될 수 있는 강력한 2D-to-3D 접지 (grounding) 능력을 이미 갖추고 있음을 관찰했습니다. 그러나 정밀한 분석 결과, 이들의 조건부 생성 메커니즘은 방향 제어 (orientation control)와 기하학적 전이 (geometry transfer)를 얽어놓고 있으며, 이 두 기능은 서로 다른 시점의 이미지들을 단순히 결합할 때 충돌한다는 것을 발견했습니다. 이러한 분석을 바탕으로, 우리는 사전 학습된 단일 시점 모델을 업그레이드하여 포즈 정보가 없는 (unposed) 임의의 수의 이미지를 수용할 수 있게 하는 경량 방법론인 ROAR-3D를 제안합니다. 토큰 단위 뷰 라우터 (token-wise view router)는 각 3D 잠재 토큰 (latent token)을 가장 관련 있는 시점에 할당하여, 명시적인 포즈 입력 없이도 암시적으로 2D-to-3D 대응 관계 (correspondences)를 설정합니다. 이중 스트림 어텐션 (dual-stream attention) 설계는 사전 학습된 기본 시점 (primary-view)의 동작을 보존하는 동시에, 기하학적 풍부화 (geometric enrichment)를 전담하는 별도의 경로를 통해 보조 시점 (auxiliary views)을 라우팅합니다. 방향 섭동 전략 (orientation perturbation strategy)은 보조 경로가 방향에 독립적인 기하학적 전이를 학습하도록 보장합니다. 이러한 구성 요소들은 최소한의 학습 가능한 파라미터 (trainable parameters)를 도입하며, 단일 시점 베이스라인 (single-view baseline) 대비 무시할 수 있는 수준의 추론 오버헤드 (inference overhead)만을 추가합니다. ROAR-3D는 최첨단 (state-of-the-art) 다중 시점 3D 생성 품질을 달성하며, 테스트 시점에 1개에서 12개 이상의 시점으로 뷰 스케일링 (view scaling)을 지원하면서도 일관된 성능 향상을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기