arXiv논문2026. 06. 19. 10:46

HilDA: 자가 지도 학습 LiDAR 사전 학습을 발전시키기 위한 확산 모델 기반 계층적 증류 (Hierarchical

요약

HilDA는 시각 파운데이션 모델을 활용해 LiDAR 백본을 자가 지도 학습시키는 새로운 계층적 증류 프레임워크입니다. 다층 증류와 전역 문맥 증류, 시간적 점유 확산 방식을 결합하여 자율 주행에 필요한 시공간 정보를 효과적으로 학습합니다.

핵심 포인트

카메라-to-LiDAR 지식 증류의 한계를 극복하는 HilDA 프레임워크 제안
다층 증류 및 전역 문맥 증류를 통한 계층적 의미 구조 활용
시간적 점유 확산 목적 함수로 시공간적 일관성 확보
3D 객체 탐지 및 장면 흐름 등 주요 벤치마크에서 SOTA 달성

카메라-to-LiDAR 지식 증류 (knowledge distillation)를 위해 시각 파운데이션 모델 (Vision Foundation Models, VFMs)을 활용하는 것은 실제 자율 주행 (Autonomous Driving, AD)의 방대한 기하학적 및 운동학적 다양성을 표현하는 데 필요한 주석 처리된 데이터의 부족 문제를 해결할 수 있는 유망한 솔루션을 제공합니다. 그러나 현재의 접근 방식은 일반적으로 VFMs를 블랙박스 교사 (black-box teachers)로 취급하며, 프레임 단위의 특징 유사성 (frame-wise feature similarity)에만 전적으로 의존합니다. 결과적으로, 이들은 교사의 계층별 의미 구조 (layer-wise semantic structure)와 전역적 문맥 (global context), 그리고 LiDAR 시퀀스에 내재된 풍부한 시공간 정보 (spatiotemporal information)를 충분히 활용하지 못합니다. 우리는 주행 작업에 필요한 의미론적 '무엇 (what)'과 기하학적 '어디 (where)'를 더 잘 포착하는 LiDAR 백본 (backbone)을 위한 자가 지도 학습 (self-supervised) 사전 학습 프레임워크인 HilDA를 제안합니다. HilDA는 점진적인 의미 정렬 (semantic alignment)을 위한 다층 증류 (multi-layer distillation)와 장면 수준의 의미론 (scene-level semantics)을 위한 전역 문맥 증류 (global context distillation)를 포함하는 계층적 증류 (hierarchical distillation)를 시공간적 일관성 (spatiotemporal consistency)을 촉진하는 시간적 점유 확산 (temporal occupancy diffusion) 목적 함수와 결합합니다. HilDA로 사전 학습된 모델은 교차 모달 증류 (cross-modal distillation) 벤치마크에서 최첨단 (state-of-the-art) 결과를 달성하며, 3D 객체 탐지 (3D object detection), 장면 흐름 (scene flow), 그리고 의미론적 점유 예측 (semantic occupancy prediction)에서 이전의 증류 접근 방식으로 학습된 모델보다 뛰어난 성능을 보입니다. 코드 사용 가능: https://maxiuw.github.io/hilda.

AI 자동 생성 콘텐츠

원문 바로가기

HilDA: 자가 지도 학습 LiDAR 사전 학습을 발전시키기 위한 확산 모델 기반 계층적 증류 (Hierarchical

요약

핵심 포인트

댓글