DPPE: Multi-View Transformers의 확장을 위한 카메라 기반 위치 인코딩(Positional Encoding)의 재고
요약
다중 뷰 Transformer 모델의 확장 시 발생하는 성능 정체 문제를 해결하기 위해 새로운 위치 인코딩 방식인 DPPE를 제안합니다. 기존 방식의 회전과 이동 정보 혼재로 인한 불확정성을 해결하여 안정적인 장기 학습과 우수한 일반화 성능을 입증했습니다.
핵심 포인트
- 기존 카메라 기반 위치 인코딩의 학습 확장성 한계 분석
- 회전과 이동 정보를 명시적으로 분리하는 DPPE 제안
- 신규 뷰 합성(NVS) 작업에서 안정적인 장기 학습 가능
- 시점 증가 및 줌인 시나리오에서 뛰어난 외삽 성능 확인
Transformer의 놀라운 확장성(scalability)은 3D 컴퓨터 비전 분야로 그 응용 범위를 넓혔으며, 이 분야에서는 다중 뷰 기하학(multi-view geometry)에서 공간적 단서를 제공하기 위한 카메라 인식 위치 인코딩(camera-aware positional encoding)이 매우 중요합니다. 최근의 발전은 외적 파라미터(extrinsics)나 투영 행렬(projection matrices)과 같은 카메라 파라미터를 어텐션 메커니즘(attention mechanism)의 쿼리(query), 키(key), 값(value) 벡터에 상대적 위치 인코딩(relative positional encoding)으로 사용하는 관행을 확립했습니다. 그러나 카메라 기반 위치 인코딩을 사용하여 신규 뷰 합성(NVS) 모델의 학습 레시피를 확장할 때, 우리는 모델 성능이 학습 후기 단계에서 정체되는 심각한 문제를 관찰했습니다. 본 논문에서는 확장 시 발생하는 성능 병목 현상의 원인을 조사하며, 위치 인코딩에 의해 주어진 회전(rotation)과 이동(translation)을 값(value) 벡터의 동일한 차원에 저장하는 것이 이들의 독립적인 식별에 불확정성(indeterminacy)을 유발하여 학습 확장성을 저해한다는 것을 입증합니다. 이를 해결하기 위해, 우리는 회전과 이동을 명시적으로 분리하는 새로운 카메라 기반 위치 인코딩인 DPPE(Decoupled Pose Positional Encoding)를 제안합니다. NVS 작업에 대한 광범위한 평가를 통해 DPPE가 확장된 학습 설정에서도 안정적인 장기 학습을 가능하게 함을 입증합니다. 또한, 시점(viewpoints) 수의 증가나 줌인(zoom-in) 시나리오와 같은 외삽(extrapolation) 설정에서 우수한 일반화 성능을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기