arXiv논문2026. 06. 23. 12:30

Select-to-Act: 적응형 언어 가이드를 통한 계층적 강화학습 (Hierarchical Reinforcement Learning)

요약

자연어 지시 사항을 단계별로 분해하여 계층적 강화학습에 적용하는 HRLLI 프레임워크를 제안합니다. 상위 정책이 상황에 맞는 지시 조각을 선택하고 하위 정책이 행동을 실행함으로써 샘플 효율성을 높입니다.

핵심 포인트

자연어 지시 사항을 동적 의미론적 가이드로 모델링
Select-to-Act 패러다임을 통한 계층적 RL 구조 제안
지시 사항을 조각난 요소로 분해하여 단계별 적응성 강화
RTFM 벤치마크에서 기존 지시 조건부 RL 모델 능가

강화학습 (Reinforcement Learning, RL)은 순차적 의사결정 (sequential decision-making)에 널리 적용되어 왔으나, 환경과의 비용이 많이 드는 상호작용으로 인해 샘플 효율성 (sample efficiency)이 떨어지는 경우가 많습니다. 최근의 제한적인 연구들은 자연어 지시 사항 (natural-language instructions)으로 표현된 외부 지식을 활용하여 RL 효율성을 개선하는 방안을 탐구하기 시작했습니다. 그러나 기존의 몇 안 되는 접근 방식들은 일반적으로 전체 지시 사항을 단일 조건부 입력 (conditioning input)으로 취급하며, 특히 복잡한 환경에서 언어 가이드의 단계별 특성 (stage-dependent nature)을 고려하지 못합니다. 본 논문에서 우리는 자연어 지시 사항을 의사결정 과정 중 동적으로 선택 가능한 의미론적 가이드 (semantic guidance)로 명시적으로 모델링하는 계층적 RL 프레임워크인 계층적 언어 지시 강화학습 (Hierarchical Reinforcement Learning with Language Instructions, HRLLI)을 제안합니다. HRLLI는 지시 사항을 일련의 조각난 가이드 요소 (piecewise guidance elements) 세트로 분해하며, 각 지시 조각은 환경과의 상호작용 중 서로 다른 단계에서 관련성을 가질 수 있습니다. 그런 다음 새로운 계층적 RL 정책 구조를 Select-to-Act 패러다임으로 공식화합니다. 즉, 상위 수준의 의미론적 정책 (high-level semantic policy)은 현재 상태에 가장 관련 있는 지시 조각을 선택하여 하위 수준 에이전트의 의사결정을 안내하는 가이드 선택기 (guidance selector) 역할을 수행하며, 하위 수준 정책 (low-level policy)은 선택된 가이드에 따라 환경 행동을 실행합니다. 두 수준의 정책은 환경과의 상호작용으로부터 얻은 증강된 기대 수익 (augmented expected returns)을 최대화하기 위해 동시에 학습됩니다. 이러한 설계는 에이전트가 상호작용 중에 언어 지시 사항을 단계별 의사결정으로 적응적으로 접지 (grounding)할 수 있게 합니다. 지시 사항 집약적인 RTFM 벤치마크에서의 실험 결과, HRLLI는 강력한 지시 조건부 RL 베이스라인들을 일관되게 능가하였으며, 이는 적응형 지시 선택 (adaptive instruction selection)을 명시적으로 모델링하는 것이 RL의 효과를 크게 향상시킨다는 것을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Select-to-Act: 적응형 언어 가이드를 통한 계층적 강화학습 (Hierarchical Reinforcement Learning)

요약

핵심 포인트

댓글