ReGRPO: 도구 사용 에이전트를 위한 반성 증강 정책 최적화 (Reflection-Augmented Policy Optimization)

도구 증강 시각-언어 모델 (VLMs)은 외부 도구를 호출함으로써 멀티모달(multimodal), 다단계 작업을 해결할 수 있지만, 실제 적용 시에는 여전히 취약한 모습을 보입니다. 기존 연구에는 두 가지 공통적인 격차가 존재합니다. 지도 미세 조정 (Supervised fine-tuning, SFT)은 주로 성공적인 궤적 (trajectories)을 기반으로 구축되어 도구 실패 후 복구에 대한 신호를 거의 제공하지 못하며, 희소한 궤적 수준의 강화학습 (RL) 보상은 어떤 단계에서 실패했는지, 그리고 어떻게 수정해야 하는지에 대해 제한적인 가이드만을 제공합니다. 우리는 도구 사용 에이전트에서 반성 유도 수정 (reflection-guided correction)을 학습하는 프레임워크인 ReGRPO (Reflection-augmented Group Relative Policy Optimization)를 소개합니다. ReGRPO는 구조화된 반성 데이터 엔진으로 시작합니다. 우리는 근접 실패 (near-miss) 동작을 실행하여 근거가 있는 실패 관찰을 수집한 다음, 웜 스타트 (warm-start) SFT를 위해 수정된 동작과 쌍을 이루는 반성 사고 (Reflection-of-Thought, RoT) 트리플렛 (ErrorType, Evidence, FixPlan)을 구축합니다. 그 다음, 그룹 상대적 이점 (group-relative advantages)을 사용하여 로컬 궤적 내에서 반성 토큰과 수정 동작을 공동으로 최적화하며, 불필요한 반성을 줄이기 위해 반성 비용 (reflection-cost) 항을 포함합니다. GTA 및 GAIA에 대한 실험 결과, 동일한 백본 (backbone)과 도구 세트 하에서 ReGRPO는 강력한 오픈 소스 베이스라인들을 지속적으로 능가하며 비교된 오픈 소스 컨트롤러들 중 최고의 성능을 달성했습니다. 코드와 RoT 데이터는 https://github.com/showlab/ReGRPO 에서 확인할 수 있습니다.

Insights

ReGRPO: 도구 사용 에이전트를 위한 반성 증강 정책 최적화 (Reflection-Augmented Policy Optimization)

요약

핵심 포인트

댓글

RLVR에서의 저차원 적응(LoRA)을 위한 기하학적 보존 직교 초기화

지능의 창조: AGI를 위한 계산적 토대

산업 규모 차량 경로 문제를 위한 적응형 클러스터 우선 경로 후순위 분해 (Adaptive Cluster-First Route-Second

실패 연쇄 끊기: 의료 멀티모달 추론을 위한 단계 인식 강화학습 (Step-Aware Reinforcement Learning)

지능의 창조: AGI를 위한 계산적 토대

산업 규모 차량 경로 문제를 위한 적응형 클러스터 우선 경로 후순위 분해 (Adaptive Cluster-First Route-Second

실패 연쇄 끊기: 의료 멀티모달 추론을 위한 단계 인식 강화학습 (Step-Aware Reinforcement Learning)