arXiv논문2026. 05. 14. 07:17

Action Guidance로부터 Agentic Policy 학습하기

요약

본 논문은 LLM 기반 에이전트 강화학습(Agentic RL)에서 기본 정책의 탐색 한계를 극복하기 위해 ActGuide-RL을 제안합니다. 이 방법은 값비싼 SFT 대신 일상적인 인간 상호작용 데이터에서 얻은 액션 데이터를 '계획 스타일 참조 가이드'로 활용하여, 에이전트가 보상 상태에 도달하는 데 필요한 외부 안내를 제공합니다. ActGuide-RL은 가이드와 비가이드를 혼합 학습하고 최소 개입 원칙을 적용함으로써, 오프-폴리시 리스크를 줄이고 검색 에이전트 벤치마크에서 높은 성능 향상을 입증했습니다.

핵심 포인트

ActGuide-RL은 LLM 에이전트 RL의 탐색 한계를 극복하기 위한 새로운 프레임워크입니다.
SFT 의존도를 낮추고, 일상적인 액션 데이터를 계획 스타일 참조 가이드로 활용합니다.
가이드와 비가이드를 혼합 정책 학습(mixed-policy training)하여 얻은 이득을 기본 정책에 내재화합니다.
최소 개입 원칙과 적응형 폴백 메커니즘을 통해 오프-폴리시 리스크를 최소화했습니다.
검색 에이전트 벤치마크에서 기존 방법 대비 높은 성능 향상을 보였습니다.

대규모 언어 모델 (LLMs)을 위한 에이전트 강화학습 (Agentic RL)은 기본 정책 (base policy)의 탐색 (exploration) 능력에 결정적으로 의존하는데, 이는 학습 신호가 기본 정책의 역량 밖 영역 (in-capability region) 내에서만 나타나기 때문입니다. 기본 정책이 보상 상태 (reward states)에 도달할 수 없는 작업의 경우, 효과적인 학습 신호를 회복하기 위해 추가적인 학습이나 외부 가이드 (external guidance)가 필요합니다. 우리는 비용이 많이 드는 반복적인 지도 미세 조정 (Supervised Fine-Tuning, SFT)에 의존하는 대신, 일상적인 인간 상호작용에서 생성되는 풍부한 액션 데이터 (action data)를 활용합니다. 우리는 액션 데이터를 계획 스타일의 참조 가이드 (plan-style reference guidance)로 주입하여, 에이전트 정책 (agentic policy)이 보상 상태로의 도달 가능성 장벽을 극복할 수 있도록 하는 extsc{ActGuide-RL}을 제안합니다. 이후 가이드가 있는 롤아웃 (guided rollouts)과 가이드가 없는 롤아웃 (unguided rollouts)을 혼합 정책 학습 (mixed-policy training)을 통해 공동으로 최적화하여, 탐색을 통해 얻은 이득을 가이드가 없는 정책에 다시 내재화합니다. 이득-리스크 트레이드오프 (benefit-risk trade-off)에 대한 이론적 및 경험적 분석에 착안하여, 우리는 오프-폴리시 리스크 (off-policy risk)를 최소화하면서 작업 난이도에 맞춰 가이드를 적응형 폴백 (adaptive fallback)으로만 호출하는 최소 개입 원칙 (minimal intervention principle)을 채택합니다. 검색 에이전트 벤치마크 (search-agent benchmarks)에서 extsc{ActGuide-RL}은 제로 RL (zero RL) 대비 상당한 성능 향상을 보였으며 (Qwen3-4B 사용 시 GAIA에서 +10.7 pp, XBench에서 +19 pp), 콜드 스타트 (cold start) 없이도 SFT+RL 파이프라인과 대등한 성능을 보여주었습니다. 이는 무거운 SFT 데이터에 대한 의존도를 줄이는 대신 확장 가능한 액션 가이드를 사용하는 에이전트 RL의 새로운 패러다임을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Action Guidance로부터 Agentic Policy 학습하기

요약

핵심 포인트

댓글