arXiv논문2026. 06. 16. 13:59

의심스러울 때는 계획을 세워라: 반응형 강화학습 (Reactive Reinforcement Learning)을 위한 전념형 소형 언어 모델

요약

반응형 강화학습(RL)의 한계를 극복하기 위해 SLM 플래너를 결합한 하이브리드 아키텍처 PACT를 제안합니다. PACT는 비동기적으로 계획을 생성하고 검증하여 RL 정책을 우회함으로써 미지의 환경에서도 안정적인 성능을 보여줍니다.

핵심 포인트

RL의 숙의 과정 부족 문제를 해결하기 위한 PACT 아키텍처 제안
SLM을 활용한 비동기적 계획 생성 및 검증 메커니즘
FrozenLake 환경 테스트 결과 기존 베이스라인 대비 우수한 성능 입증
반응적 실행과 숙의적 계획의 협업을 통한 강화학습 성능 향상

강화학습 (Reinforcement Learning, RL) 정책은 명시적인 숙의 (deliberation) 과정이 부족하기 때문에 익숙하지 않은 환경에서 성능이 저하되는 경우가 많습니다. 우리는 빠르고 반응적인 RL 정책과 느리고 숙의적인 소형 언어 모델 (Small Language Model, SLM) 플래너를 결합한 하이브리드 아키텍처인 Plan, Align, Commit, Think (PACT)를 제안합니다. PACT는 SLM을 비동기적으로 호출하여 후보 행동 계획을 생성하고 검증합니다. 시뮬레이션을 통해 계획이 안전하고, 실행 가능하며, 완전하다고 검증되면, RL 정책을 재학습하거나 수정하지 않고도 해당 계획을 직접 실행하여 RL 정책을 우회합니다. 난이도가 점진적으로 증가하는 세 가지 FrozenLake 설정에서 평가한 결과, PACT는 2B 파라미터 SLM 백본을 사용하면서도 모든 베이스라인 모델보다 뛰어난 성능을 보였습니다. 이는 이러한 환경에서 숙의적 계획 (deliberative planning)과 반응적 실행 (reactive execution)이 각각 단독으로 작용할 때보다 함께 협력할 때 더 강력하다는 것을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

의심스러울 때는 계획을 세워라: 반응형 강화학습 (Reactive Reinforcement Learning)을 위한 전념형 소형 언어 모델

요약

핵심 포인트

댓글