arXiv논문2026. 05. 27. 12:03

표현력이 풍부한 Flow 기반 교사로부터의 적대적 이중 온-폴리시 증류 (Adversarial Dual On-Policy

요약

FA-OPD는 Flow Matching 교사와 MLP 학생을 공동 학습시키는 적대적 이중 온-폴리시 증류 기법을 제안합니다. 보상과 행동 채널을 통해 탐색과 활용을 동시에 최적화하여, 시연 데이터만으로도 체화된 제어 성능을 극대화합니다.

핵심 포인트

Flow Matching 기반 교사와 MLP 학생의 공동 학습 구조 제안
보상 채널을 통한 장기 정책 최적화 및 온라인 탐색 유도
행동 채널을 통한 국소 타겟 공급으로 학습 안정화
로봇 내비게이션 및 조작 등 6개 벤치마크에서 우수한 성능 입증

Embodied control (체화된 제어) 분야에서 시연(demonstrations)으로부터 학습하는 것은 흔히 행동 복제 (Behavioral Cloning, BC)로 간주되며, 최근의 확산 모델 (Diffusion) 또는 Flow-matching 정책들은 다중 모드 (multi-modal) 전문가 행동을 모델링함으로써 이 패러다임을 개선하고 있습니다. 하지만 이러한 방법들은 여전히 오프라인 지도 학습자 (offline supervised learners)로 남아 있습니다. 즉, 정책이 전문가의 상태 (expert states)에 대해서만 학습될 뿐, 실제로 방문하는 상태에 대해서는 교정 신호를 받지 못합니다. 온-폴리시 증류 (On-policy distillation, OPD)는 자연스러운 해결책을 제공하지만, 표준적인 OPD는 강력하고 고정된 교사 (teacher)가 존재한다고 가정하며, 이는 시연만 있는 제어 상황에서는 불가능합니다. 우리는 Flow Matching (FM) 교사를 시연으로부터 학습시키고 가벼운 MLP 학생 (student)과 함께 공동 학습시키는 extbf{FA-OPD}, 즉 extit{적대적 이중 온-폴리시 증류 (adversarial dual on-policy distillation)} 방법을 제안합니다. 교사는 학생의 롤아웃 (rollouts)에 대해 두 가지 상호 보완적인 신호를 제공합니다. 보상 채널 (reward channel)은 상태-행동 쌍 (state-action pairs)에 대해 전문가 유사성 (expert-likeness) 목적 함수를 학습하며, 장기 정책 최적화 (long-horizon policy optimization)를 통해 온라인 탐색 (online exploration)을 유도합니다. 행동 채널 (action channel)은 학생이 방문한 상태에서 조밀한 국소 타겟 (dense local targets)을 공급하여 활용 (exploitation)을 안정화합니다. FA-OPD는 이 둘을 결합하여, 보상 증류 (reward distillation)가 점 단위 시연 (point-wise demonstrations)을 넘어선 일반화 (generalization)를 가능하게 하는 동시에, 행동 증류 (action distillation)가 탐색이 전문가와 유사한 행동 근처에 머물도록 고정합니다. 6가지 로봇 내비게이션, 조작 (manipulation), 이동 (locomotion) 벤치마크 전반에 걸쳐, FA-OPD는 강력한 베이스라인들을 능가하며 노이즈가 있거나 제한된 시연 환경에서 훨씬 더 강력한 강건성 (robustness)을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

표현력이 풍부한 Flow 기반 교사로부터의 적대적 이중 온-폴리시 증류 (Adversarial Dual On-Policy

요약

핵심 포인트

댓글