arXiv논문2026. 05. 13. 17:41

오프라인에서 온라인 강화학습을 위한 이산 흐름 매칭(Discrete Flow Matching)

요약

본 논문은 이산 액션 공간을 가진 강화학습(RL) 작업에서 온라인 미세 조정을 수행하는 새로운 방법인 DRIFT를 제안합니다. DRIFT는 오프라인으로 사전 학습된 연속 시간 마르코프 체인(CTMC) 정책을 장점 가중 이산 흐름 매칭 손실로 업데이트하여, 유용한 기존 지식을 보존하면서도 새로운 상호작용으로부터 성능을 개선할 수 있게 합니다.

핵심 포인트

DRIFT는 오프라인 사전 학습된 CTMC 정책을 온라인으로 미세 조정하는 방법론입니다.
장점 가중 이산 흐름 매칭 손실(advantage-weighted discrete flow matching loss)을 사용하여 업데이트를 수행합니다.
경로 공간 페널티(path-space penalty)를 추가하여 기존의 유용한 CTMC 궤적 분포 지식을 보존합니다.
이 방법은 생성기가 결정론적 기준선보다 빠르게 변화하는 보상에 적응할 수 있음을 실험적으로 입증했습니다.

많은 강화학습 (RL) 작업은 이산 액션 공간을 가지고 있지만, 확산 모델 및 흐름 매칭(flow matching) 기반의 대부분의 생성 정책 방법은 연속 제어에 맞춰져 있습니다. 한편, 생성 정책은 일반적으로 오프라인 데이터셋에 크게 의존하며, 오프라인-투-온라인 RL 자체도 까다롭습니다. 왜냐하면 정책이 정적인 데이터에서 학습한 유용한 행동을 잃지 않으면서 새로운 상호작용으로부터 개선해야 하기 때문입니다. 이러한 어려움을 해결하기 위해, 우리는 DRIFT를 소개합니다. 이는 오프라인 사전 학습된 연속 시간 마르코프 체인 (CTMC) 정책을 장점 가중 이산 흐름 매칭 손실(advantage-weighted discrete flow matching loss)로 업데이트하는 온라인 미세 조정 방법입니다. 유용한 사전 학습 지식을 보존하기 위해, 우리는 전체 CTMC 궤적 분포를 정규화하는 경로 공간 페널티(path-space penalty)를 추가합니다.

제어된 실험은 경로 공간 페널티(path-space penalty)가 미세 조정(fine-tuning) 중에도 유한하게 유지되며, CTMC 생성기가 결정론적 기준선보다 더 빠르게 변화하는 보상에 적응한다는 것을 추가로 확인시켜 줍니다. 후보 집합 메커니즘(candidate-set mechanism)은 생성기 오차가 후보 커버리지에 따라 지수적으로 감소함을 보여주는 안정성 분석을 통해 뒷받침됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

오프라인에서 온라인 강화학습을 위한 이산 흐름 매칭(Discrete Flow Matching)

요약

핵심 포인트

댓글