BiPACE: LLM 에이전트를 위한 행동 반사실적 추정(Action Counterfactual Estimation)을 결합한
요약
LLM 에이전트의 강화학습 효율을 높이기 위해 상태-행동 신용 불일치 문제를 해결하는 BiPACE 방법론을 제안합니다. BiGPO와 PACE를 결합하여 추가적인 비평가나 롤아웃 없이도 에이전트의 성공률을 크게 향상시킵니다.
핵심 포인트
- 상태-행동 신용 불일치 문제를 해결하는 새로운 이점 추정기 BiPACE 제안
- BiGPO를 통해 은닉 상태 기하학 기반의 단계별 클러스터링 수행
- PACE를 사용하여 행동 조건부 피어 베이스라인으로 수익 재중심화
- Qwen2.5 등 다양한 모델에서 기존 GRPO/GiGPO 대비 높은 성공률 달성
- 추가적인 비평가나 롤아웃 없이도 낮은 오버헤드로 성능 개선 가능
단계별 그룹 기반 강화학습 (Stepwise group-based RL)은 학습된 비평가 (critic) 없이 장기적 목표를 가진 LLM 에이전트를 훈련하는 매력적인 방법입니다. 이는 여러 번 샘플링된 롤아웃 (rollouts)을 재사용하여 국소적 이점 (local advantages)을 추정합니다. 이 방법의 약점은 눈에 잘 띄지 않지만 더 근본적입니다. 모든 그룹 상대적 추정기 (group-relative estimator)는 비교되는 단계들이 신용 할당 (credit assignment) 측면에서 동일하다고 가정합니다. 우리는 현재의 에이전트 변형 모델들이 상태-행동 신용 불일치 (state-action credit mismatch)를 통해 이 가정을 위반한다는 것을 보여줍니다. 관측 해시 분할 (observation-hash partition)은 상태 측면에서 지나치게 세분화되어 단계 수준의 신호가 없는 단일 항목 그룹 (singleton groups)을 생성하는 반면, 단일 그룹 내 평균 (within-group mean)은 행동 측면에서 너무 거칠어서 상태 가치 추정 (state-value estimation)과 행동 특화 신용 (action-specific credit)을 혼합해 버립니다.
우리는 비평가 (critic), 보조 손실 (auxiliary loss), 또는 추가적인 롤아웃 (rollouts)을 추가하지 않고 양쪽 문제를 모두 해결하는 즉시 적용 가능한 이점 추정기 (advantage estimator)인 BiPACE (Bisimulation-Guided Policy Optimization with Action Counterfactual Estimation)를 소개합니다. BiGPO는 액터 (actor) 자신의 은닉 상태 기하학 (hidden-state geometry) 내 코사인 거리 (cosine distance)를 통해 단계들을 클러스터링하며, 이는 유사성 (bisimulation)을 위한 경험적 정책 유도 프록시 (policy-induced proxy)로서 관측 해싱 (observation hashing)으로 인해 발생하는 단일 항목 비율 (singleton rate)을 실질적으로 낮춥니다. 그런 다음 PACE는 행동 조건부 피어 베이스라인 (action-conditioned peer baselines)을 사용하여 각 행동 클러스터 내에서 수익 (returns)을 재중심화합니다. PACE의 Q-스타일 인스턴스 추정은 국소적 $Q(s,a)-V(s)$를 비모수적 (nonparametrically)으로 추정합니다.
ALFWorld/Qwen2.5-7B 실험에서 BiPACE_Q는 세 개의 시드(seed)에 대해 GiGPO의 90.8에서 $97.1 ext. ext{±} 0.9$로 전체 검증 성공률을 높였으며, GiGPO가 동일한 예산 내에서 달성하지 못한 모든 시드에서 95% 임계값을 돌파했습니다. Qwen2.5-1.5B에서는 GiGPO의 86.7 대비 $93.5 ext. ext{±} 1.2$에 도달했으며, WebShop 및 TextCraft에서도 두 모델 규모 모두에서 GRPO 및 GiGPO보다 개선된 성능을 보였습니다. 측정된 BiPACE 특유의 오버헤드는 단일 훈련 단계 벽시계 시간 (wall time)의 11.3%입니다. 그럼에도 불구하고, 이는 추정기의 비교 단위를 표면적 동일성 (surface identity)에서 근사적 행동 등가성 (approximate behavioral equivalence) 및 행동 측면의 반사실적 추정 (action-side counterfactuals)으로 변화시킵니다. 코드는 https://github.com/TianxiangZhao/BiPACE 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기