LIME: 1인칭 시점 비디오로부터 의도를 인식하는 카메라 움직임 학습

자율 로봇은 행동을 수행하기 전에 종종 카메라를 움직여야 합니다: 물체를 검사하거나, 가려진 영역을 드러내거나, 사용자의 의도에 부합하는 시야를 확보하기 위해서입니다. 시각-언어 내비게이션(Vision-language navigation)이 지시 사항을 기본 움직임으로 변환하고, 시각-언어-행동(Vision-language-action) 정책이 지시 사항을 조작 행동으로 매핑하는 반면, 언어 조건부 카메라 움직임(Language-conditioned camera motion)은 일급 행동(First-class action)으로서 상대적으로 덜 탐구되었습니다. 우리는 언어 조건부 카메라 움직임 생성을 공식화합니다: 현재의 RGB 관측값과 자유 형식의 자연어 의도가 주어졌을 때, 다음 관측을 위한 상대적인 목표 카메라 포즈(Camera pose)를 예측합니다. 이 작업은 본질적으로 까다롭습니다: 시점(Viewpoint)의 변화는 잠재적인 지각적 의도(Perceptual intentions)에 의해 구동되며, 유효한 움직임은 방에 들어가는 것부터 코너를 돌아보는 것, 보이는 물체를 검사하는 것, 또는 가려진 세부 사항을 드러내는 것까지 다양한 의미론적 입도(Semantic granularity)로 작동할 수 있기 때문입니다. 이러한 구조를 모델링하기 위해, 우리는 1인칭 시점(Egocentric) 비디오에서 다중 의도 카메라 움직임 감독 신호(Supervision)를 채굴하여, 타당한 의도 및 관측 이득(Observation-gain) 설명과 상대적인 SE(3) 목표 포즈를 쌍으로 구성합니다. 우리는 자기 회귀적(Auto-regressive) 관측 이득 출력과 연속적인 플로우 매칭(Flow-matching) 포즈 헤드를 결합한 시각-언어 카메라 움직임 생성기인 LIME을 제안합니다. 이러한 설계는 모델이 다중 가설 목표 시야를 표현하는 동시에 다음 시야가 무엇을 드러내야 하는지를 공동으로 예측할 수 있게 합니다. 실험과 다운스트림 로봇 작업 전반에 걸쳐, 우리는 LIME이 수동적인 인간 비디오로부터 카메라 포즈를 능동적으로 선택하는 법을 배울 수 있으며, 일반적인 1인칭 기록을 의도 인식 능동 지각(Intent-aware active perception)을 위한 감독 신호로 전환할 수 있음을 보여줍니다.

Insights

LIME: 1인칭 시점 비디오로부터 의도를 인식하는 카메라 움직임 학습

요약

핵심 포인트

댓글

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때