DPPE: Multi-View Transformers의 확장을 위한 카메라 기반 위치 인코딩(Positional Encoding)의 재고

Transformer의 놀라운 확장성(scalability)은 3D 컴퓨터 비전 분야로 그 응용 범위를 넓혔으며, 이 분야에서는 다중 뷰 기하학(multi-view geometry)에서 공간적 단서를 제공하기 위한 카메라 인식 위치 인코딩(camera-aware positional encoding)이 매우 중요합니다. 최근의 발전은 외적 파라미터(extrinsics)나 투영 행렬(projection matrices)과 같은 카메라 파라미터를 어텐션 메커니즘(attention mechanism)의 쿼리(query), 키(key), 값(value) 벡터에 상대적 위치 인코딩(relative positional encoding)으로 사용하는 관행을 확립했습니다. 그러나 카메라 기반 위치 인코딩을 사용하여 신규 뷰 합성(NVS) 모델의 학습 레시피를 확장할 때, 우리는 모델 성능이 학습 후기 단계에서 정체되는 심각한 문제를 관찰했습니다. 본 논문에서는 확장 시 발생하는 성능 병목 현상의 원인을 조사하며, 위치 인코딩에 의해 주어진 회전(rotation)과 이동(translation)을 값(value) 벡터의 동일한 차원에 저장하는 것이 이들의 독립적인 식별에 불확정성(indeterminacy)을 유발하여 학습 확장성을 저해한다는 것을 입증합니다. 이를 해결하기 위해, 우리는 회전과 이동을 명시적으로 분리하는 새로운 카메라 기반 위치 인코딩인 DPPE(Decoupled Pose Positional Encoding)를 제안합니다. NVS 작업에 대한 광범위한 평가를 통해 DPPE가 확장된 학습 설정에서도 안정적인 장기 학습을 가능하게 함을 입증합니다. 또한, 시점(viewpoints) 수의 증가나 줌인(zoom-in) 시나리오와 같은 외삽(extrapolation) 설정에서 우수한 일반화 성능을 보여줍니다.

Insights

DPPE: Multi-View Transformers의 확장을 위한 카메라 기반 위치 인코딩(Positional Encoding)의 재고

요약

핵심 포인트

댓글

박제된 나비(Lepidoptera)의 실용적인 고충실도 신규 시점 합성 (Novel-View Synthesis)

NURBS Splatting: 벡터 그래픽을 위한 통합 미분 가능 렌더링 프레임워크

차가운 우주 속 뜨거운 AI: 지속 가능한 궤도 AI 클러스터를 위한 열 간섭 인지형 스케줄링

비트코인 채굴의 이정표: GoMining, Stratum V2를 사용하여 최초의 채굴자 제어 블록 구축

박제된 나비(Lepidoptera)의 실용적인 고충실도 신규 시점 합성 (Novel-View Synthesis)

NURBS Splatting: 벡터 그래픽을 위한 통합 미분 가능 렌더링 프레임워크

차가운 우주 속 뜨거운 AI: 지속 가능한 궤도 AI 클러스터를 위한 열 간섭 인지형 스케줄링

비트코인 채굴의 이정표: GoMining, Stratum V2를 사용하여 최초의 채굴자 제어 블록 구축