본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 27. 19:51

지지를 보존하지, 대응만 하지 말라: 오프라인 강화학습을 위한 동적 라우팅

요약

본 논문은 오프라인 강화학습(Offline RL)의 한계를 극복하기 위해 '동적 라우팅' 기법을 도입한 단일 단계 액터 DROL을 제안합니다. 기존 방식들이 데이터셋이 지지하는 행동 영역을 벗어나지 않으면서도 성능 개선을 이루는 데 어려움을 겪었던 반면, DROL은 각 상태에서 여러 후보 행동을 샘플링하고 이 중 가장 적합한 '승리자'만을 업데이트하여 로컬 최적화를 가능하게 합니다. 이를 통해 단일 패스 추론의 효율성을 유지하면서도 미세한 지역 개선 능력을 확보했습니다.

핵심 포인트

  • DROL은 오프라인 RL을 위한 잠재 변수 조건부(latent-conditioned) 단일 단계 액터입니다.
  • 각 상태에서 $K$개의 후보 행동을 샘플링하고, 데이터셋의 각 행동에 가장 가까운 '승리자'를 결정합니다.
  • 라우팅 메커니즘이 학습 과정에서 재계산되어 지원되는 행동 영역의 소유권 이동(ownership transfer)을 가능하게 합니다.
  • 단일 패스 추론의 효율성을 유지하면서도, 기존 포인트별 추출 방식으로는 포착하기 어려운 로컬 개선 능력을 확보했습니다.

단일 단계 오프라인 RL 액터는 긴 반복적 샘플러를 통해 역전파를 피하고 추론 비용을 낮게 유지한다는 점에서 매력적이지만, 데이터셋이 지탱할 수 있는 행동에서 벗어나지 않으면서도 크리틱(critic) 하에서 성능을 개선해야 하는 한계를 여전히 안고 있습니다. 최근의 단일 단계 추출 파이프라인에서는 강력한 반복적 교사 (iterative teacher) 가 각 잠재 변수 추출 (latent draw) 에 대해 하나의 목표 행동을 제공하며, 동일한 학생 출력 (student output) 이 두 가지 역할을 동시에 수행하도록 요구받습니다. 즉, 더 높은 Q 값을 향해 이동하는 것과 해당 짝지어진 엔드포인트 근처에 머무는 것인데, 만약 이 두 방향이 상충된다면 손실 함수는 동일한 샘플에서 타협점을 찾아 해결합니다. 심지어 데이터가 로컬하게 더 나은 행동을 지탱하고 있음에도 불구하고 그렇습니다.

우리는 top-1 동적 라우팅 (dynamic routing) 으로 훈련된 잠재 변수 조건부 (latent-conditioned) 단일 단계 액터인 DROL 을 제안합니다. 각 상태에 대해 액터는 유계된 잠재 사전분포 (bounded latent prior) 에서 $K$ 개의 후보 행동을 샘플링하며, 데이터셋의 각 행동을 가장 가까운 후보 행동에 할당하고, 행동 복제 (Behavior Cloning) 와 크리틱 가이드를 통해 오직 그 승리자 (winner) 만을 업데이트합니다. 라우팅이 현재 후보 행동의 기하학적 구조에서 재계산되므로, 학습 과정에서 지원된 영역의 소유권이 후보 행동 간에 이동할 수 있습니다. 이는 단일 패스 추론 (single-pass inference) 을 테스트 시간에도 유지하면서, 포인트별 추출 (pointwise extraction) 이 포착하기 어려운 로컬 개선을 액터가 수행할 여지를 줍니다. OGBench 와 D4RL 에서 DROL 은 단일 단계 FQL 베이스라인과 경쟁력을 보이며, 많은 OGBench 작업 그룹에서 성능을 개선하면서도 AntMaze 와 Adroit 에서도 강력한 성능을 유지합니다. 프로젝트 페이지: https://muzhancun.github.io/preprints/DROL.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0