arXiv논문2026. 06. 25. 11:55

LLM 에이전트의 강화학습을 위한 의미론적 일관성 정책 최적화 (Semantic Consistency Policy Optimization)

요약

LLM 에이전트의 강화학습 시 발생하는 의미론적 신용 불일치 문제를 해결하기 위한 SCPO 방법론을 제안합니다. 성공적인 궤적과 실패한 궤적 간의 유사성을 활용해 단계별 보상을 최적화함으로써 다단계 과업 수행 능력을 향상시킵니다.

핵심 포인트

그룹 기반 강화학습의 의미론적 신용 불일치 문제 해결
SCPO: 성공적인 형제 궤적을 활용한 가치 없는 보상 형성 방법론
ALFWorld 및 WebShop 벤치마크에서 기존 베이스라인 상회 성능 입증
복잡한 다단계(multi-step) 과업에서 특히 높은 성능 향상 확인

그룹 기반 강화학습 (Group-based reinforcement learning)은 궤적 결과 (trajectory outcomes)로부터 단계별 신용 (step-level credit)을 도출함으로써, 장기적이고 희소한 보상 (sparse-reward)을 가진 과업을 수행하는 LLM 에이전트를 효과적으로 사후 학습 (post-train)시킵니다. 그러나 이는 특정 단계의 신용을 해당 롤아웃 (rollout)의 최종 결과에 종속시킵니다. 즉, 의미론적으로 거의 동일한 중간 단계들이 그 궤적이 최종적으로 성공했는지 혹은 실패했는지에 따라 서로 상반된 신용을 받게 됩니다. 이러한 의미론적 신용 불일치 (semantic credit inconsistency)는 유사한 행동에 대해 상충하는 그래디언트 (gradients)를 전달하며, 실패한 롤아웃 내에 존재하는 부분적으로 올바른 진행 과정을 낭비하게 만듭니다. 이에 착안하여, 본 논문에서는 동일한 롤아웃 그룹 내의 성공적인 형제 (successful siblings)로부터 단계별 신용을 복구함으로써 이러한 불일치를 완화하는 가치 없는 (value-free) 보상 형성 (reward-shaping) 방법론인 의미론적 일관성 정책 최적화 (Semantic Consistency Policy Optimization, SCPO)를 제안합니다. 구체적으로, SCPO는 각 실패한 단계를 성공적인 형제와 비교하여 점수를 매기고, 해당 형제와 함께 이루어낸 새로운 진전(progress)에 대해 양(+)의 단계별 신용을 추가합니다. ALFWorld 및 WebShop 벤치마크에서 SCPO는 강력한 그룹 기반 베이스라인 (baselines)과 대등하거나 이를 상회하는 성능을 보였으며, 1.5B 파라미터 모델 기준 ALFWorld에서 93.7+/-4.1%, WebShop에서 74.8+/-2.0%의 성공률을 달성하였고, 이러한 이득은 가장 어려운 다단계 (multi-step) 과업에 집중되었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM 에이전트의 강화학습을 위한 의미론적 일관성 정책 최적화 (Semantic Consistency Policy Optimization)

요약

핵심 포인트

댓글