본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 26. 11:12

OPID: 에이전트 강화학습 (Agentic Reinforcement Learning)을 위한 온폴리시 기술 증류 (On-Policy

요약

OPID는 언어 에이전트의 강화학습 성능을 높이기 위해 온폴리시 궤적에서 계층적 기술 감독을 추출하는 프레임워크입니다. 에피소드 및 단계 수준의 기술을 활용해 토큰 수준의 조밀한 감독을 제공함으로써 샘플 효율성과 강건성을 향상시킵니다.

핵심 포인트

  • 계층적 기술(에피소드/단계 수준)을 통한 정밀한 감독 제공
  • 기존 기술 증류 방식의 외부 메모리 의존성 및 분포 불일치 문제 해결
  • 핵심 우선 라우팅 메커니즘으로 임계 결정 시 단계별 지식 활용
  • ALFWorld, WebShop 등에서 기존 RL 대비 높은 성능 및 효율성 입증

결과 기반 강화학습 (Outcome-based reinforcement learning)은 언어 에이전트 (language agents)를 위한 안정적인 최적화 중추를 제공하지만, 희소한 궤적 수준 (trajectory-level) 보상은 어떤 중간 결정이 강화되거나 억제되어야 하는지에 대해 거의 안내를 제공하지 못합니다. 온폴리시 자기 증류 (On-policy self-distillation)는 조밀한 토큰 수준 (token-level) 감독을 제공하지만, 기존의 기술 조건부 (skill-conditioned) 변형 모델들은 종종 외부 기술 메모리 (skill memories)나 검색된 특권 컨텍스트 (retrieved privileged context)에 의존하며, 이는 유지 비용이 많이 들고 다회차 상호작용 (multi-turn interaction) 중 현재 정책 (policy)에 의해 유도된 상태 분포 (state distribution)와 불일치할 수 있습니다.

우리는 완료된 온폴리시 궤적 (on-policy trajectories)에서 직접 기술 감독 (skill supervision)을 추출하는 프레임워크인 \textbf{OPID} (\textbf{O}n-\textbf{P}olicy Sk\textbf{i}ll \textbf{D}istillation)를 제안합니다. OPID는 궤적 사후 분석 (trajectory hindsight)을 계층적 기술 (hierarchical skills)로 표현합니다. 에피소드 수준 (episode-level) 기술은 전역적 워크플로우 (global workflows) 또는 실패 방지 규칙 (failure-avoidance rules)을 포착하며, 단계 수준 (step-level) 기술은 임계 타임스텝 (critical timesteps)에서의 국소적 결정 지식 (local decision knowledge)을 포착합니다. 핵심 우선 라우팅 (critical-first routing) 메커니즘은 임계 결정이 식별되면 단계 수준 기술을 사용하고, 그렇지 않으면 기본 가이드로서 에피소드 수준 기술로 대체합니다. 선택된 기술은 상호작용 이력 (interaction history)에 주입되어, 이전 정책 (old policy)이 원래 컨텍스트와 기술 증강 (skill-augmented) 컨텍스트 모두에서 동일한 샘플링된 응답을 다시 점수화 (re-score)할 수 있게 합니다. 결과적으로 발생하는 로그 확률 변화 (log-probability shift)는 토큰 수준의 자기 증류 이점 (token-level self-distillation advantage)을 생성하며, 이는 정책 최적화 (policy optimization)를 위해 결과 이점 (outcome advantage)과 결합됩니다. 따라서 OPID는 RL을 주요 학습 목표로 유지하면서도 조밀하고 분포가 일치하는 사후 감독 (hindsight supervision)을 도입합니다. ALFWorld, WebShop 및 검색 기반 QA (Search-based QA)에서의 실험은 OPID가 결과 전용 RL (outcome-only RL) 및 기존 기술 증류 (skill-distillation) 베이스라인에 비해 일반적으로 에이전트 성능, 샘플 효율성 (sample efficiency) 및 강건성 (robustness)을 향상시킨다는 것을 입증합니다. 우리의 코드는 https://github.com/jinyangwu/OPID/tree/main 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0