본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 08. 10:55

분포 내 최적화(In-distribution Optimization)를 통한 자기 진화형 LLM 에이전트

요약

Q-Evolve는 LLM 에이전트의 장기적 의사결정 문제를 해결하기 위해 분포 내 강화학습을 활용한 자기 진화 프레임워크를 제안합니다. 자동 프로세스 보상 레이블링과 정책 학습을 통합하여 희소 보상 환경에서도 안정적인 자기 개선을 가능하게 합니다.

핵심 포인트

  • 분포 내 강화학습을 통한 안정적인 에이전트 자기 진화
  • 자동 프로세스 보상 레이블링으로 신용 할당 문제 해결
  • 하이브리드 오프-폴리시 데이터셋 기반의 비평가 학습
  • AlfWorld, WebShop 등 벤치마크에서 우수한 성능 입증

대규모 언어 모델 (LLMs)은 최근 복잡한 환경 내 상호작용 에이전트를 위한 강력한 컨트롤러로 부상하였으나, 이들이 신뢰할 수 있는 장기적 의사결정 (Long-horizon decision making)을 수행하도록 훈련하는 것은 여전히 근본적인 과제로 남아 있습니다. 주요 어려움은 신용 할당 (Credit assignment) 문제에 있습니다. 에이전트는 종종 에피소드가 끝나는 시점에만 지연된 보상을 받기 때문입니다. 본 논문에서는 원칙적인 분포 내 강화학습 (In-distribution reinforcement learning) 패러다임 내에서 자동 프로세스 보상 레이블링 (Automatic process-reward labeling)과 정책 학습 (Policy learning)을 통합하는 LLM 에이전트용 자기 진화 프레임워크인 Q-Evolve를 제안합니다. 각 진화 반복 단계에서, 우리의 방법론은 전문가 시연 (Expert demonstrations)과 에이전트 생성 궤적 (Agent-generated trajectories)을 결합한 하이브리드 오프-폴리시 (Off-policy) 데이터셋으로부터 분포 내 비평가 (In-distribution critic)를 학습하며, 가중치가 적용된 암시적 Q-학습 (Implicit Q-Learning) 목적 함수를 통해 희소 보상 (Sparse-reward) 환경에서의 벨만 백업 (Bellman backups)을 안정화합니다. 학습된 가치 함수 (Value function)는 이후 어드밴티지 추정 (Advantage estimation)을 통해 단계별 프로세스 보상을 도출하는 데 사용되며, 이를 통해 환경의 역행 (Backtracking)이나 인간의 주석 (Human annotation) 없이도 조밀하고 신뢰할 수 있는 감독 (Supervision)을 가능하게 합니다. 이러한 신호들을 활용하여, 우리는 프로세스 보상 레이블링에 사용된 데이터를 통해 에이전트를 진화시키는 행동 근접 정책 최적화 (Behavior-proximal policy optimization)를 수행하며, 이는 분포 변화 (Distribution shift)를 악화시키지 않으면서 반복적인 자기 개선을 가능하게 합니다. 우리는 AlfWorld, WebShop, ScienceWorld에서 우리의 방법을 평가하였으며, Q-Evolve가 샘플 효율성 (Sample efficiency), 강건성 (Robustness), 그리고 전반적인 작업 성능 측면에서 강력한 베이스라인들을 능가함을 보여줍니다. 우리의 결과는 프로세스 수준의 감독과 정책이 공유된 분포 내 학습 루프 내에서 공동 진화함으로써 안정적인 에이전트 자기 진화가 달성 가능하다는 것을 입증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0