arXiv논문2026. 04. 27. 19:51

지지를 보존하지, 대응만 하지 말라: 오프라인 강화학습을 위한 동적 라우팅

요약

본 논문은 오프라인 강화학습(Offline RL)의 한계를 극복하기 위해 '동적 라우팅' 기법을 도입한 단일 단계 액터 DROL을 제안합니다. 기존 방식들이 데이터셋이 지지하는 행동 영역을 벗어나지 않으면서도 성능 개선을 이루는 데 어려움을 겪었던 반면, DROL은 각 상태에서 여러 후보 행동을 샘플링하고 이 중 가장 적합한 '승리자'만을 업데이트하여 로컬 최적화를 가능하게 합니다. 이를 통해 단일 패스 추론의 효율성을 유지하면서도 미세한 지역 개선 능력을 확보했습니다.

핵심 포인트

DROL은 오프라인 RL을 위한 잠재 변수 조건부(latent-conditioned) 단일 단계 액터입니다.
각 상태에서 $K$개의 후보 행동을 샘플링하고, 데이터셋의 각 행동에 가장 가까운 '승리자'를 결정합니다.
라우팅 메커니즘이 학습 과정에서 재계산되어 지원되는 행동 영역의 소유권 이동(ownership transfer)을 가능하게 합니다.
단일 패스 추론의 효율성을 유지하면서도, 기존 포인트별 추출 방식으로는 포착하기 어려운 로컬 개선 능력을 확보했습니다.

단일 단계 오프라인 RL 액터는 긴 반복적 샘플러를 통해 역전파를 피하고 추론 비용을 낮게 유지한다는 점에서 매력적이지만, 데이터셋이 지탱할 수 있는 행동에서 벗어나지 않으면서도 크리틱(critic) 하에서 성능을 개선해야 하는 한계를 여전히 안고 있습니다. 최근의 단일 단계 추출 파이프라인에서는 강력한 반복적 교사 (iterative teacher) 가 각 잠재 변수 추출 (latent draw) 에 대해 하나의 목표 행동을 제공하며, 동일한 학생 출력 (student output) 이 두 가지 역할을 동시에 수행하도록 요구받습니다. 즉, 더 높은 Q 값을 향해 이동하는 것과 해당 짝지어진 엔드포인트 근처에 머무는 것인데, 만약 이 두 방향이 상충된다면 손실 함수는 동일한 샘플에서 타협점을 찾아 해결합니다. 심지어 데이터가 로컬하게 더 나은 행동을 지탱하고 있음에도 불구하고 그렇습니다.

우리는 top-1 동적 라우팅 (dynamic routing) 으로 훈련된 잠재 변수 조건부 (latent-conditioned) 단일 단계 액터인 DROL 을 제안합니다. 각 상태에 대해 액터는 유계된 잠재 사전분포 (bounded latent prior) 에서 $K$ 개의 후보 행동을 샘플링하며, 데이터셋의 각 행동을 가장 가까운 후보 행동에 할당하고, 행동 복제 (Behavior Cloning) 와 크리틱 가이드를 통해 오직 그 승리자 (winner) 만을 업데이트합니다. 라우팅이 현재 후보 행동의 기하학적 구조에서 재계산되므로, 학습 과정에서 지원된 영역의 소유권이 후보 행동 간에 이동할 수 있습니다. 이는 단일 패스 추론 (single-pass inference) 을 테스트 시간에도 유지하면서, 포인트별 추출 (pointwise extraction) 이 포착하기 어려운 로컬 개선을 액터가 수행할 여지를 줍니다. OGBench 와 D4RL 에서 DROL 은 단일 단계 FQL 베이스라인과 경쟁력을 보이며, 많은 OGBench 작업 그룹에서 성능을 개선하면서도 AntMaze 와 Adroit 에서도 강력한 성능을 유지합니다. 프로젝트 페이지: https://muzhancun.github.io/preprints/DROL.

AI 자동 생성 콘텐츠

원문 바로가기

지지를 보존하지, 대응만 하지 말라: 오프라인 강화학습을 위한 동적 라우팅

요약

핵심 포인트

댓글