3D 인지 기하학적 제약 조건을 활용한 오픈 보카블러리 (Open-Vocabulary) BEV 세그멘테이션
요약
자율 주행을 위한 오픈 보카블러리 BEV 세그멘테이션 프레임워크인 OVBEVSeg를 제안합니다. 3D 기하학적 제약 조건과 가우시안 스플래팅을 활용하여 2D VLM의 시맨틱스를 BEV로 정밀하게 투영하며, 기존 폐쇄 집합 방식보다 높은 성능과 효율성을 입증했습니다.
핵심 포인트
- 3D 기하학적 제약 조건을 활용한 OVBEVSeg 프레임워크 제안
- 가우시안 스플래팅 기반의 효율적인 언프로젝션 기술 적용
- unseen 카테고리에서 기존 방식 대비 15.3 mIoU 성능 향상
- 기존 투영 방식 대비 메모리 0.22배, 추론 속도 2.5배 개선
Bird's-eye view (BEV, 조감도) 인지는 자율 주행을 위해 다중 카메라 이미지를 통합된 탑다운 (top-down) 표현으로 융합합니다. 최근의 발전에도 불구하고, 최첨단 (state-of-the-art) 방법들은 여전히 폐쇄 집합 (closed-set) 시나리오에 국한되어 있어 예측 불가능한 실제 환경에 취약합니다. 본 연구에서는 정밀한 BEV 인지 및 실시간 효율성을 유지하면서, 시각-언어 모델 (VLMs)을 활용하여 학습 세트 이외의 카테고리를 인식하는 오픈 보카블러리 (open-vocabulary) BEV 세그멘테이션 (OVBS)을 소개합니다. OVBS의 핵심 과제는 2D VLM 시맨틱스 (semantics)를 BEV로 들어 올리는 (lifting) 부적절한 문제 (ill-posed problem)에 내재된 3D 기하학적 불일치에 있습니다. 이를 해결하기 위해, 우리는 세 가지 단계적인 과정을 통해 견고한 3D 기하학적 제약 조건을 활용하여 효율적인 가우시안 스플래팅 (Gaussian splatting, GS) 기반 언프로젝션 (unprojection)을 강화하는 기하학 인지형 OVBS 프레임워크인 OVBEVSeg를 제안합니다: (1) OV 일반화를 위한 신뢰할 수 있는 3D 투영을 통한 2D-to-BEV 의사 라벨링 (pseudo-labeling); (2) 3D 기하학적 일관성을 위한 BEV 구조적 제약 조건을 포함한 공동 2D-BEV 장면별 최적화; (3) 온라인 효율성을 위한 3D 기하학적 증류 (distillation). nuScenes 데이터셋에서 OVBEVSeg는 최첨단 성능을 달성하였으며, 보지 못한 (unseen) 카테고리에서 폐쇄 집합 방법들보다 15.3 mIoU 더 높은 성능을 보였습니다. 놀랍게도, 새로운 클래스의 정답 (ground-truth) 라벨이 없는 상황에서도 최대 40%의 정답 주석 (annotations)으로 학습된 자기 지도 (self-supervised) 및 준 지도 (semi-supervised) 베이스라인들과 경쟁할 만한 수준을 유지합니다. 또한, 투영 기반 방법들에 비해 메모리 소비는 0.22배에 불과하면서도 2.5배 더 빠른 추론을 달성합니다. 프로젝트 페이지: https://hchoi256.github.io/projects/ovbevseg/.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기