LIME: 1인칭 시점 비디오로부터 의도를 인식하는 카메라 움직임 학습
요약
LIME은 1인칭 비디오를 통해 자연어 의도에 따라 카메라 움직임을 예측하는 모델입니다. 시각-언어 모델을 활용해 다음 관측을 위한 최적의 카메라 포즈를 생성하며, 능동적 지각(Active Perception) 능력을 보여줍니다.
핵심 포인트
- 자연어 의도를 기반으로 상대적 카메라 포즈(SE3) 예측
- 자기 회귀적 관측 이득과 플로우 매칭 포즈 헤드 결합
- 1인칭 비디오에서 다중 의도 감독 신호 채굴 및 학습
- 로봇의 능동적 시야 확보 및 물체 검사 능력 향상
자율 로봇은 행동을 수행하기 전에 종종 카메라를 움직여야 합니다: 물체를 검사하거나, 가려진 영역을 드러내거나, 사용자의 의도에 부합하는 시야를 확보하기 위해서입니다. 시각-언어 내비게이션(Vision-language navigation)이 지시 사항을 기본 움직임으로 변환하고, 시각-언어-행동(Vision-language-action) 정책이 지시 사항을 조작 행동으로 매핑하는 반면, 언어 조건부 카메라 움직임(Language-conditioned camera motion)은 일급 행동(First-class action)으로서 상대적으로 덜 탐구되었습니다. 우리는 언어 조건부 카메라 움직임 생성을 공식화합니다: 현재의 RGB 관측값과 자유 형식의 자연어 의도가 주어졌을 때, 다음 관측을 위한 상대적인 목표 카메라 포즈(Camera pose)를 예측합니다. 이 작업은 본질적으로 까다롭습니다: 시점(Viewpoint)의 변화는 잠재적인 지각적 의도(Perceptual intentions)에 의해 구동되며, 유효한 움직임은 방에 들어가는 것부터 코너를 돌아보는 것, 보이는 물체를 검사하는 것, 또는 가려진 세부 사항을 드러내는 것까지 다양한 의미론적 입도(Semantic granularity)로 작동할 수 있기 때문입니다. 이러한 구조를 모델링하기 위해, 우리는 1인칭 시점(Egocentric) 비디오에서 다중 의도 카메라 움직임 감독 신호(Supervision)를 채굴하여, 타당한 의도 및 관측 이득(Observation-gain) 설명과 상대적인 SE(3) 목표 포즈를 쌍으로 구성합니다. 우리는 자기 회귀적(Auto-regressive) 관측 이득 출력과 연속적인 플로우 매칭(Flow-matching) 포즈 헤드를 결합한 시각-언어 카메라 움직임 생성기인 LIME을 제안합니다. 이러한 설계는 모델이 다중 가설 목표 시야를 표현하는 동시에 다음 시야가 무엇을 드러내야 하는지를 공동으로 예측할 수 있게 합니다. 실험과 다운스트림 로봇 작업 전반에 걸쳐, 우리는 LIME이 수동적인 인간 비디오로부터 카메라 포즈를 능동적으로 선택하는 법을 배울 수 있으며, 일반적인 1인칭 기록을 의도 인식 능동 지각(Intent-aware active perception)을 위한 감독 신호로 전환할 수 있음을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기