arXiv논문2026. 06. 19. 12:11

UNIEGO: 통합된 1인칭 시점 비디오 표현 학습을 위한 중재자로서의 Proxy

요약

UNIEGO는 1인칭 시점(Egocentric) 비디오 이해를 위해 계층적 다중 교사 증류 프레임워크를 제안합니다. Proxy 모델 계층을 통해 이질적인 교사들의 지식을 균질한 공간으로 변환하고, 선택적 Proxy 증류(SPD)를 통해 안정적인 학습을 구현합니다.

핵심 포인트

Proxy 모델을 활용해 이질적인 교사 지식을 통합된 1인칭 시점 공간으로 변환
선택적 Proxy 증류(SPD)로 신뢰할 수 있는 감독 신호만 사용하여 오류 억제
Ego-Exo 벤치마크의 행동 인식, 검색, 분할 작업에서 SOTA 성능 달성
다중 모달리티 및 파운데이션 모델 지식을 효과적으로 증류하는 프레임워크

1인칭 시점 (Egocentric) 비디오 이해는 웨어러블 카메라의 좁은 관점으로 인해 본질적인 한계를 가집니다. 단일 시점, 단일 모달리티 (modality), 단일 모델로는 인간 행동의 풍부함을 온전히 포착할 수 없습니다. 우리는 진정으로 표현력이 뛰어난 1인칭 시점 표현 (egocentric representation)이 시점, 모달리티, 그리고 파운데이션 모델 (foundation model) 표현에 걸친 상호 보완적인 지식을 포함해야 하면서도, 1인칭 시점 비디오만으로 배포 가능해야 한다고 주장합니다. 이를 위해 우리는 계층적 다중 교사 증류 (hierarchical multi-teacher distillation) 프레임워크를 도입하여 UNIEGO를 선보입니다. UNIEGO는 ego-exo 시점, RGB, 깊이 (depth), 스켈레톤 (skeleton) 모달리티를 아우르는 9개의 교사와 4개의 파운데이션 모델을 통해 학습된 통합 1인칭 시점 인코더입니다. 호환되지 않는 아키텍처와 특징 기하학 (feature geometries)으로 인해 상충하는 그래디언트 (gradients)를 유발하는 이질적인 교사들로부터 직접 증류하는 대신, 우리의 프레임워크는 다양한 교사의 지식을 균질한 1인칭 시점 공간으로 변환하는 표현 특화 Proxy 모델 계층을 사이에 둡니다. 이어지는 두 번째 증류 단계인 선택적 Proxy 증류 (Selective Proxy Distillation, SPD)는 각 학습 샘플에 대해 정확하고 확신이 있는 Proxy의 하위 집합을 적응적으로 선택하여, 신뢰할 수 있는 감독 (supervision)으로부터만 독점적으로 증류하고 오류 신호를 억제합니다. SPD는 UNIEGO를 Proxy 파라미터들의 학습된 볼록 조합 (convex combination)으로 초기화함으로써 더욱 안정화되며, 이를 통해 통합 모델을 증류가 시작되기 전 손실 함수 지형 (loss landscape)의 상태가 양호한 (well-conditioned) 영역에 배치합니다. UNIEGO는 세 가지 도전적인 ego-exo 벤치마크에서 행동 인식 (action recognition), 비디오 검색 (video retrieval), 행동 분할 (action segmentation)이라는 세 가지 1인칭 시점 비디오 이해 작업에 대해 최첨단 (state-of-the-art) 성능을 달성하였으며, 단순한 다중 교사 증류 베이스라인을 능가함으로써 구조화되고 Proxy가 중재하는 지식 전이가 더 풍부하고 판별력 있는 1인칭 시점 표현을 생성한다는 것을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

UNIEGO: 통합된 1인칭 시점 비디오 표현 학습을 위한 중재자로서의 Proxy

요약

핵심 포인트

댓글