arXiv논문2026. 05. 13. 17:41

흐름 맵 정책을 최적 Q-가이던스로 정렬하기

요약

본 논문은 고도로 다중 모드 액션 분포를 가진 복잡한 제어 문제에 사용되는 생성적 정책의 높은 표현력과 그로 인한 추론 비용 문제를 해결하기 위해 '흐름 맵 정책(flow map policies)'이라는 새로운 클래스의 생성적 정책을 제안합니다. 이 정책은 기존 생성 역학을 가로지르는 임의 크기의 점프를 학습하여 빠른 액션 생성을 목표로 합니다. 실험 결과, 흐름 맵 정책(FMQ)은 로봇 조작 및 이동 작업에서 이전의 단일 단계 정책보다 평균 성공률이 21.3% 향상되는 등 최고 성능을 달성했습니다.

핵심 포인트

생성적 정책은 복잡한 제어 문제에 적합하지만, 높은 추론 비용(지연 시간) 문제가 존재한다.
새롭게 제안된 '흐름 맵 정책(flow map policies)'은 임의 크기의 점프를 학습하여 빠른 액션 생성을 가능하게 한다.
FMQ는 오프라인-투-온라인 강화학습 환경에서 최고 성능을 달성했다.
로봇 조작 및 이동 작업에서 FMQ는 기존 단일 단계 정책 대비 평균 성공률이 21.3% 향상되었다.

확산(diffusion) 및 흐름 매칭(flow matching)과 같은 표현력이 뛰어난 모델 클래스에 기반한 생성적 정책은 고도로 다중 모드(highly multimodal)의 액션 분포를 가진 복잡한 제어 문제에 적합합니다. 하지만 이러한 표현력은 상당한 추론 비용을 수반합니다. 즉, 각 액션을 생성하려면 일반적으로 많은 단계의 생성 과정을 시뮬레이션해야 하며, 이는 순차적인 의사 결정 롤아웃(rollouts) 전반에 걸쳐 지연 시간(latency)을 누적시킵니다. 본 논문에서는 흐름 맵 정책(flow map policies)이라는 새로운 클래스의 생성적 정책을 소개합니다. 이 정책은 기존의 생성 역학(generative dynamics)을 가로지르는 임의 크기의 점프, 여기에는 한 단계 점프도 포함되도록 학습하여 빠른 액션 생성을 위해 설계되었습니다.

OGBench와 RoboMimic의 12가지 까다로운 로봇 조작 및 이동 작업 전반에 걸쳐 FMQ는 오프라인-투-온라인 강화학습 (RL)에서 최고 성능을 달성하며, 평균 성공률에서 이전의 단일 단계 정책 MVP보다 상대적으로 21.3% 향상된 성능을 보였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

흐름 맵 정책을 최적 Q-가이던스로 정렬하기

요약

핵심 포인트

댓글