arXiv논문2026. 05. 27. 12:21

StepOPSD: 에이전트 강화학습 (RL)을 위한 단계 인식 온라인 선호도 증류 (Step-Aware Online Preference

요약

다회차 에이전트 강화학습의 신용 할당 문제를 해결하기 위해 단계 인식 온라인 선호도 증류(StepOPSD) 프레임워크를 제안합니다. 궤적을 행동 중심의 단계 단위로 분해하여 보상을 재분배함으로써 에이전트의 성능을 최적화합니다.

핵심 포인트

에이전트 궤적을 단계별 세그먼트로 분해하여 신용 재분배 수행
사후 통찰 기반의 교사 컨텍스트를 통한 단계별 재점수화
Qwen 모델 기반 실험에서 ALFWorld 및 Search-QA 최고 성능 달성
단계 인식 증류가 국소적 행동과 보상 간 불일치 해결에 효과적임

다회차(multi-turn) 에이전트를 위한 강화학습 (Reinforcement Learning, RL)은 신용 할당 불일치 (credit-assignment mismatch) 문제로 어려움을 겪습니다. 즉, 보상은 희소하고 궤적(trajectory) 수준으로 주어지는 반면, 성공 여부는 종종 몇 가지 국소적인 결정에 달려 있습니다. 기존의 온라인 정책 증류 (Online Policy Distillation, OPD)는 더 조밀한 토큰 수준의 감독을 제공하지만, 일반적으로 이질적인 에이전트 궤적을 인과적 상호작용 단위가 아닌 단일한 문자열로 취급합니다. 본 논문에서는 에이전트의 단계를 신용 재분배의 단위로 사용하는 사후 롤아웃 선호도 자기 증류 (post-rollout preference self-distillation) 프레임워크인 StepOPSD를 제안합니다. StepOPSD는 궤적을 행동 중심의 단계 세그먼트 (step segments)로 분해하고, 사후 통찰 (hindsight)이 강화된 교사 컨텍스트 (teacher contexts) 하에서 이를 재점수화하며, GRPO 업데이트 전에 토큰 수준의 로그 확률 (log-probability) 차이를 정규화된 단계별 신용 예산 (per-step credit budget)을 가진 부호 보존형 어드밴티지 셰이핑 (sign-preserving advantage shaping)으로 변환합니다. Qwen3-1.7B 및 Qwen2.5-3B-Instruct를 사용한 ALFWorld 및 Search-QA 실험 결과, StepOPSD는 국소적 인과 오류 (local causal errors)에 가장 민감한 하위 집합에서 최고 또는 차석의 성능을 달성했습니다. 여기에는 ALFWorld Heat (79.1%), PickTwo (95.0%), Search-QA TriviaQA (61.6%)에서의 1위 성능과 HotpotQA (40.4%)에서의 공동 최고 성능이 포함됩니다. 결과는 또한 일관된 두 가지 조절 법칙 (two-knob law)을 보여줍니다: 더 작은 $\alpha_{clip}$은 광범위하게 안정화하는 국소적 신뢰 영역 (local trust region) 역할을 하는 반면, 최적의 전역 혼합 강도 $\lambda_{mix}$는 작업에 따라 달라집니다. 이러한 발견은 궤적 수준의 보상이 하류(downstream)의 성공을 결정하는 국소적 행동과 약하게 정렬되어 있을 때 단계 인식 증류 (step-aware distillation)가 가장 유용하다는 것을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

StepOPSD: 에이전트 강화학습 (RL)을 위한 단계 인식 온라인 선호도 증류 (Step-Aware Online Preference

요약

핵심 포인트

댓글