ROAR-3D: 고충실도 3D 생성을 위한 임의 시점 라우팅 (Routing Arbitrary Views for High-Fidelity 3D

단일 이미지 기반 3D 생성 모델 (Single-image-to-3D generative models)은 이제 고품질의 기하학적 구조 (geometry)를 생성할 수 있지만, 단일 시점에 의존하는 조건부 생성 (conditioning)은 보이지 않는 영역에 대한 모호성을 필연적으로 유발합니다. 다중 시점 조건부 생성 (Multi-view conditioning)은 이러한 모호성을 줄일 수 있지만, 기존 방법들은 고정된 정준 시점 (canonical viewpoints)을 요구하거나, 막대한 학습 비용을 초래하고 생성 품질을 제한하는 외부 재구성 모듈 (external reconstruction modules)에 의존합니다. 우리는 사전 학습된 단일 시점 모델이 다중 시점 조건부 생성을 위해 재사용될 수 있는 강력한 2D-to-3D 접지 (grounding) 능력을 이미 갖추고 있음을 관찰했습니다. 그러나 정밀한 분석 결과, 이들의 조건부 생성 메커니즘은 방향 제어 (orientation control)와 기하학적 전이 (geometry transfer)를 얽어놓고 있으며, 이 두 기능은 서로 다른 시점의 이미지들을 단순히 결합할 때 충돌한다는 것을 발견했습니다. 이러한 분석을 바탕으로, 우리는 사전 학습된 단일 시점 모델을 업그레이드하여 포즈 정보가 없는 (unposed) 임의의 수의 이미지를 수용할 수 있게 하는 경량 방법론인 ROAR-3D를 제안합니다. 토큰 단위 뷰 라우터 (token-wise view router)는 각 3D 잠재 토큰 (latent token)을 가장 관련 있는 시점에 할당하여, 명시적인 포즈 입력 없이도 암시적으로 2D-to-3D 대응 관계 (correspondences)를 설정합니다. 이중 스트림 어텐션 (dual-stream attention) 설계는 사전 학습된 기본 시점 (primary-view)의 동작을 보존하는 동시에, 기하학적 풍부화 (geometric enrichment)를 전담하는 별도의 경로를 통해 보조 시점 (auxiliary views)을 라우팅합니다. 방향 섭동 전략 (orientation perturbation strategy)은 보조 경로가 방향에 독립적인 기하학적 전이를 학습하도록 보장합니다. 이러한 구성 요소들은 최소한의 학습 가능한 파라미터 (trainable parameters)를 도입하며, 단일 시점 베이스라인 (single-view baseline) 대비 무시할 수 있는 수준의 추론 오버헤드 (inference overhead)만을 추가합니다. ROAR-3D는 최첨단 (state-of-the-art) 다중 시점 3D 생성 품질을 달성하며, 테스트 시점에 1개에서 12개 이상의 시점으로 뷰 스케일링 (view scaling)을 지원하면서도 일관된 성능 향상을 보여줍니다.

Insights

ROAR-3D: 고충실도 3D 생성을 위한 임의 시점 라우팅 (Routing Arbitrary Views for High-Fidelity 3D

요약

핵심 포인트

댓글

Abacus, 2,240억 달러 규모의 2차 생명보험 자산을 온체인(Onchain)으로 토큰화

BHP, Escondida 확장 프로젝트를 위한 환경 허가 확보

Razer의 첫 Linux 인증 노트북: Razer Blade 18 RZ09-0582

AI 영상으로 화장품 광고 하나 만들어봤습니다. (협찬 아님)

BHP, Escondida 확장 프로젝트를 위한 환경 허가 확보

Razer의 첫 Linux 인증 노트북: Razer Blade 18 RZ09-0582

AI 영상으로 화장품 광고 하나 만들어봤습니다. (협찬 아님)