arXiv논문2026. 06. 01. 12:02

에이전트 강화학습 (Agentic RL)에서의 압축으로서의 기술 재사용 (Skill Reuse)

요약

에이전트 강화학습(Agentic RL)에서 성공적인 궤적을 추상적 패턴으로 압축하여 일반화 성능을 높이는 ReuseRL 방법론을 제안합니다. MDL 원칙을 기반으로 기술 사전을 추출하고 특이 행동에 페널티를 부여하여 성능을 개선합니다.

핵심 포인트

성공적인 궤적을 재사용 가능한 기술 패턴으로 분해
MDL 원칙 기반의 ReuseRL 프레임워크 도입
세그멘테이션 비용을 통한 특이 행동 페널티 부여
PAC-Bayes 일반화 경계 증명 완료
ALFWorld 등 실험에서 분포 내외 성공률 향상 확인

강화학습 (RL)으로 학습된 대규모 언어 모델 (LLM) 에이전트들은 종종 취약하고 작업 특화적인 지름길 (shortcuts)을 학습하곤 합니다. 우리는 에이전트의 성공적인 궤적 (trajectories)이 구조적으로 압축 가능하며, 소수의 재사용 가능한 추상적 패턴 (abstract patterns)으로 분해될 때 에이전트가 더 잘 일반화(generalize)한다는 가설을 세웠습니다. 이를 공식화하기 위해, 우리는 에이전트 강화학습 (agentic RL)을 최소 기술 길이 (Minimum Description Length, MDL) 원칙에 기반하게 하는 ReuseRL을 소개합니다. ReuseRL은 성공적인 궤적으로부터 공유된 기술 사전 (skill dictionary)을 추출하며, 인코딩 효율이 낮은 특이 행동 (idiosyncratic behaviors)에 명시적으로 페널티를 부여하는 세그멘테이션 비용 (segmentation cost)을 통해 강화학습 (RL) 목적 함수를 보강합니다. 우리는 이 압축 페널티에 대한 PAC-Bayes 일반화 경계 (generalization bound)를 증명합니다. ALFWorld, TextWorld-Cooking, 그리고 Countdown-Stepwise 실험을 통해, ReuseRL이 일반적인 GRPO 및 강력한 라운드 길이 (round-length) 베이스라인 모델들에 비해 분포 내 (in-distribution) 및 분포 외 (out-of-distribution) 성공률을 모두 향상시킴을 확인했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

에이전트 강화학습 (Agentic RL)에서의 압축으로서의 기술 재사용 (Skill Reuse)

요약

핵심 포인트

댓글