arXiv논문2026. 06. 24. 11:22

LaGO: 온라인 강화학습 (Online Reinforcement Learning)을 위한 잠재 행동 가이드 (Latent Action

요약

LaGO는 LLM을 직접적인 컨트롤러로 사용하는 대신, 온라인 강화학습을 위한 잠재 행동 사전 정보(latent action prior)로 활용하는 새로운 프레임워크를 제안합니다. CLEVR-Robot 및 Meta-World 벤치마크 실험을 통해 기존 PPO 방식보다 높은 성공률과 보상을 달성하며 LLM의 계획 수립 능력을 입증했습니다.

핵심 포인트

LLM을 직접 컨트롤러가 아닌 잠재 행동 가이드로 활용
온라인 정책 최적화 과정에서 정밀한 행동 생성 지원
CLEVR-Robot 및 Meta-World 벤치마크에서 성능 향상 입증
강력한 사전 학습된 LLM일수록 더 효과적인 가이드 제공

대규모 언어 모델 (LLMs)은 계획 수립 (planning) 및 순차적 의사결정 (sequential decision-making) 분야에서 강력한 잠재력을 보여주었으나, 기존 연구들은 종종 이들을 직접적인 컨트롤러 (controller)로 사용하는 것에 의존해 왔습니다. 이는 정밀한 행동 생성 (action generation)을 요구하며 실제 적용 시 신뢰성이 떨어질 수 있습니다. 본 논문은 온라인 정책 최적화 (online policy optimization)를 부드럽게 가이드하기 위해 사전 학습된 LLM을 명시적인 플래너 (planner)나 컨트롤러 (controller)로 취급하는 대신, 잠재 행동 사전 정보 (latent action prior)로 사용하는 프레임워크인 LaGO (Latent Action Guidance for Online Reinforcement Learning)를 제안합니다. 이산 제어 (discrete-control) 벤치마크인 CLEVR-Robot과 연속 제어 (continuous-control) 벤치마크인 Meta-World 모두에서의 실험을 통해, LaGO가 Vanilla PPO에 비해 보상 (reward)과 성공률 (success rate)을 일관되게 향상시킨다는 것을 입증했습니다. 특히, LaGO는 CLEVR-Robot에서 평균 성공률을 15.1%에서 27.2%로, Meta-World에서는 2.7%에서 15.2%로 높였습니다. 우리의 분석은 더 강력한 사전 학습된 LLM이 더 효과적인 가이드를 제공한다는 것을 추가로 보여주며, 이는 LLM의 지식이 계획 수립 및 온라인 의사결정을 개선할 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

LaGO: 온라인 강화학습 (Online Reinforcement Learning)을 위한 잠재 행동 가이드 (Latent Action

요약

핵심 포인트

댓글