arXiv논문2026. 06. 23. 13:36

효율적인 RL을 위한 성공 방문 매칭 기반의 프로세스 보상 학습

요약

희소한 결과 보상 문제를 해결하기 위해 성공적인 에피소드와 실패한 에피소드의 상태-행동 방문을 매칭하는 프로세스 보상 학습 방식을 제안합니다. 이 방식은 최적 정책을 유지하면서도 조밀한 피드백을 제공하여 로봇 제어와 같은 작업에서 RL 미세 조정 속도를 크게 향상시킵니다.

핵심 포인트

희소한 보상 문제를 해결하기 위한 조밀한 프로세스 보상 생성 기법 제안
판별기를 활용해 성공과 실패 에피소드의 상태-행동 방문을 매칭
최적 정책을 변경하지 않으면서도 학습 효율성을 증명 가능하게 개선
로봇 조작 작업의 시뮬레이션 및 실제 환경에서 빠른 미세 조정 성능 입증

많은 현대적인 강화학습 (RL) 응용 분야에서, 관심 있는 작업에 대한 자연스러운 보상은 본질적으로 희소합니다 (sparse): 작업이 완료되어 +1의 보상이 주어지는 순간을 제외하고는 모든 곳에서 0의 보상이 주어집니다. 이러한 희소한 보상을 최대화하도록 정책 (policy)을 학습시키는 것은 까다로운 신용 할당 (credit assignment) 문제를 해결해야 하며, 이는 RL 개선을 느리거나 비효효율적으로 만듭니다. 우리는 희소한 결과 보상 (outcome reward)을 조밀한 프로세스 보상 (process reward)으로 변환하는 간단한 접근 방식을 제안합니다. 우리의 접근 방식은 이전의 성공적인 에피소드와 실패한 에피소드를 구별하도록 판별기 (discriminator)를 학습시키고, 이 판별기를 사용하여 RL로 학습된 정책이 실패한 에피소드의 상태-행동 방문 (state-action visitations)은 피하면서 성공적인 에피소드의 방문과 일치하도록 유도하는 것에 의존합니다. 작업 성공에 해당하는 상태뿐만 아니라 모든 상태에 대한 방문을 일치하도록 정책을 유도함으로써, 이 보상은 작업 완료를 향한 진전이 이루어지고 있는지에 대한 조밀한 피드백을 제공하며, 우리는 이것이 최적 정책 (optimal policy)을 변경하지 않고도 이를 증명 가능하게 달성함을 보여줍니다. 로봇 제어 정책의 미세 조정 (finetuning)에 집중하여, 우리는 우리의 접근 방식이 단순히 희소한 결과 보상을 최대화하는 것과 비교했을 때 시뮬레이션 및 실제 환경의 조작 (manipulation) 작업 모두에서 훨씬 더 빠른 RL 미세 조정 성능을 이끌어낸다는 것을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

효율적인 RL을 위한 성공 방문 매칭 기반의 프로세스 보상 학습

요약

핵심 포인트

댓글