EnvRL: 에이전트 강화학습 (Agentic Reinforcement Learning)에서 환경 역학 (Environment
요약
EnvRL은 에이전트 강화학습에서 환경 역학 정보를 활용하여 정책 학습을 개선하는 새로운 프레임워크를 제안합니다. 상태 예측과 역 역학이라는 보조 목적 함수를 통해 에이전트가 환경의 전이 메커니즘을 더 잘 이해하도록 돕습니다.
핵심 포인트
- 희소한 보상 문제를 해결하기 위해 환경 역학 정보를 활용
- 상태 예측 및 역 역학을 통한 보조 목적 함수 도입
- ALFWorld 및 WebShop 벤치마크에서 성공률 대폭 향상
- Qwen-2.5 모델 기반 실험을 통해 성능 입증
강화학습 (Reinforcement Learning, RL)은 대규모 언어 모델 (Large Language Models, LLMs)을 에이전트로 훈련시키기 위한 강력한 패러다임으로 부상했습니다. 그러나 장기적 에이전트 작업 (long-horizon agentic tasks)을 위한 기존의 RL 방식은 종종 희소한 결과 보상 (sparse outcome rewards) 문제로 어려움을 겪습니다. 직관적으로, 이는 롤아웃 상호작용 궤적 (rollout interaction trajectories)에 포함된 풍부한 환경 역학 (environment dynamics) 정보를 간과하는 것입니다. 우리는 상호작용 경험이 본질적으로 암시적 감독 신호 (implicit supervision signal) 역할을 하며, 환경의 기저에 깔린 전이 메커니즘 (transition mechanisms)을 드러내고, 에이전트가 환경에 대한 더 정확한 내부 모델을 구축할 수 있게 한다고 주장합니다. 따라서 본 연구에서는 이러한 추가적인 신호를 활용하여 정책 학습 (policy learning)을 개선하는 방법을 조사합니다. 구체적으로, 우리는 상태 예측 (state prediction)과 역 역학 (inverse dynamics)이라는 두 가지 보조 목적 함수 (auxiliary objectives)를 통해 에이전트 강화학습 (agentic RL)에 환경 역학 학습을 통합하는 프레임워크인 EnvRL을 제안합니다. 기본 RL 목적 함수와 함께 공동으로 최적화함으로써, 우리는 에이전트가 자신의 상호작용 경험으로부터 환경 역학을 내재화하도록 유도합니다. 두 가지 장기적 에이전트 벤치마크에 대한 광범위한 실험을 통해, EnvRL이 RL 전용 베이스라인 (RL-only baselines) 대비 성공률 (success-rates)에서 상당한 개선을 달성함을 입증했습니다. 예를 들어, GRPO로 훈련했을 때 ALFWorld에서 Qwen-2.5-1.5B-Instruct의 성능을 72.8%에서 77.4%로, WebShop에서는 56.8%에서 67.0%로 끌어올렸습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기