arXiv논문2026. 06. 02. 10:48

명세 기반 RL에서의 확장 가능한 귀납적 일반화를 위한 분리된 행동 복제 (Decoupled Behavioral Cloning)

요약

본 논문은 강화학습의 귀납적 일반화 과정에서 발생하는 학습 불안정성을 해결하기 위해 DIBS라는 새로운 방식을 제안합니다. 작업별 정책 학습과 진화 함수 학습을 분리하여, 노이즈가 심한 보상 피드백 대신 안정적인 행동 복제(Behavioral Cloning)를 활용합니다.

핵심 포인트

작업별 정책과 진화 함수 학습을 분리하는 DIBS 제안
노이즈가 심한 보상 집계를 안정적인 지도 학습으로 대체
기존 RL 및 메타-RL 대비 학습 안정성 향상
제로샷 일반화(Zero-shot generalization) 성능 개선

귀납적 일반화 (Inductive generalization)는 귀납적으로 연관된 작업 인스턴스 (task instances)가 귀납적으로 연관된 정책 (policies)을 허용하는 강화학습 (RL) 일반화 프레임워크입니다. 기존 연구는 RL을 통해 직접 학습되는 고차 정책 진화 함수 (higher-order policy-evolution function)를 통해 이러한 구조를 포착하지만, 학습 확장성 (training scalability) 측면에서 어려움을 겪습니다. 학습 작업이 증가함에 따라 집계된 보상 피드백 (aggregated reward feedback)이 노이즈가 심해지고 상충하게 되어, 학습을 불안정하게 만들고 일반화 능력을 약화시키기 때문입니다. 본 논문에서는 작업별 정책 (task-specific policies) 학습과 진화 함수 (evolution function) 학습을 분리하는 분리된 행동 복제 (decoupled behavioral cloning) 방식인 DIBS를 제안합니다. 우리는 먼저 표준 RL을 통해 작업당 개별 교사 정책 (teacher policies)을 학습한 다음, 교사가 라벨링한 상태-행동 (state-action) 쌍에 대한 행동 복제 (behavioral cloning)를 통해 진화 함수를 적합시킵니다. 이는 노이즈가 심한 보상 집계 (reward aggregation)를 조밀하고 안정적인 지도 학습 (supervision)으로 대체합니다. DIBS는 기존의 RL 및 메타 강화학습 (meta-RL) 알고리즘과 비교하여 학습 안정성과 제로샷 일반화 (zero-shot generalization) 모두에서 상당한 개선을 달성했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

명세 기반 RL에서의 확장 가능한 귀납적 일반화를 위한 분리된 행동 복제 (Decoupled Behavioral Cloning)

요약

핵심 포인트

댓글