FocalPolicy: 일관된 시각-운동 정책을 위한 주파수 최적화 청킹 및 국소 앵커링 Flow Matching 기술
요약
FocalPolicy는 시각-운동 정책 학습 시 발생하는 청크 간 불연속성 문제를 해결하기 위해 제안된 새로운 기술입니다. 주파수 최적화 청킹과 국소 앵커링 Flow Matching을 결합하여 근접 정밀도와 원거리 예견 능력 사이의 균형을 맞추고 일관된 장기 행동 궤적을 생성합니다.
핵심 포인트
- 주파수 최적화 청킹을 통해 여러 미래 행동 청크 간의 주파수 영역 구조를 정규화하여 청크 간 일관성을 향상시킴
- 근접 행동의 시간 영역 정렬과 미래 행동의 예견 능력을 동시에 최적화하는 예견 복합 목적 함수 도입
- 일관성 Flow Matching 학습 효율을 높이기 위해 타겟 신호 전파를 최적화하는 국소 앵커링 샘플링 설계
- 기존 방식 대비 뛰어난 성능을 입증하였으며, 다른 베이스라인 모델에도 일반화가 가능한 모듈 구조를 가짐
시각-운동 정책 (Visuomotor policies)은 전문가의 시연으로부터 복잡한 조작 작업을 학습하는 것을 목표로 합니다. 하지만 근접한 정밀도 (proximal precision)와 원거리의 예견 능력 (distal foresight) 사이의 균형을 맞추어야 하기에, 매끄럽고 일관된 궤적 (trajectories)을 생성하는 것은 여전히 어려운 과제로 남아 있습니다. 기존의 접근 방식들은 일반적으로 청크 내부 (intra-chunk)의 행동 분포를 최적화하는 데 집중하며, 청크 간 (inter-chunk)의 일관성은 간과하는 경우가 많습니다. 결과적으로, 청크 간의 불연속성 (inter-chunk discontinuities)은 일관된 장기 행동 (long-horizon actions) 학습을 크게 저해합니다.
이러한 한계를 극복하고 정밀도와 예견 능력 사이의 시너지 효과를 내는 균형을 달성하기 위해, 우리는 주파수 최적화 청킹 (Frequency-Optimized Chunking)과 국소 앵커링 플로우 매칭 (Locally Anchored flow matching)을 결합한 예견 인지형 시각-운동 정책인 FocalPolicy를 제안합니다. 우리는 근접 행동 (proximal actions) 내의 시간 영역 정렬 (time-domain alignment)을 감독하는 동시에, 여러 미래 행동 청크에 걸친 주파수 영역 구조 (frequency-domain structure)를 정규화하여 청크 간 일관성을 향상시키는 예견 복합 목적 함수 (foresight composite objective)를 도입합니다. 복잡한 행동 분포를 효율적으로 학습하기 위해, 우리는 일관성 플로우 매칭 (consistency flow matching) 학습 과정에서 타겟 신호 전파 효율을 높이는 국소 앵커링 샘플링 (locally anchored sampling)을 설계했습니다. 광범위한 실험을 통해 FocalPolicy가 기존 방식보다 뛰어난 성능을 보임을 입증하였으며, 우리의 모듈이 다른 베이스라인 (baselines)에도 일반화될 수 있음을 확인했습니다. 프로젝트 웹사이트: https://focalpolicy.github.io/
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기