ReGRPO: 도구 사용 에이전트를 위한 반성 증강 정책 최적화 (Reflection-Augmented Policy Optimization)
요약
도구 사용 시 발생하는 오류를 스스로 수정할 수 있도록 학습하는 ReGRPO 프레임워크를 소개합니다. 반성 사고(RoT) 데이터와 그룹 상대적 정책 최적화를 결합하여, 멀티모달 에이전트의 도구 사용 성공률을 크게 높였습니다.
핵심 포인트
- 도구 사용 실패 시 복구 능력을 강화하는 ReGRPO 프레임워크 제안
- 반성 사고(RoT) 트리플렛을 활용한 구조화된 데이터 엔진 구축
- 반성 토큰과 수정 동작을 공동 최적화하여 성능 극대화
- GTA 및 GAIA 벤치마크에서 기존 오픈 소스 베이스라인 능가
도구 증강 시각-언어 모델 (VLMs)은 외부 도구를 호출함으로써 멀티모달(multimodal), 다단계 작업을 해결할 수 있지만, 실제 적용 시에는 여전히 취약한 모습을 보입니다. 기존 연구에는 두 가지 공통적인 격차가 존재합니다. 지도 미세 조정 (Supervised fine-tuning, SFT)은 주로 성공적인 궤적 (trajectories)을 기반으로 구축되어 도구 실패 후 복구에 대한 신호를 거의 제공하지 못하며, 희소한 궤적 수준의 강화학습 (RL) 보상은 어떤 단계에서 실패했는지, 그리고 어떻게 수정해야 하는지에 대해 제한적인 가이드만을 제공합니다. 우리는 도구 사용 에이전트에서 반성 유도 수정 (reflection-guided correction)을 학습하는 프레임워크인 ReGRPO (Reflection-augmented Group Relative Policy Optimization)를 소개합니다. ReGRPO는 구조화된 반성 데이터 엔진으로 시작합니다. 우리는 근접 실패 (near-miss) 동작을 실행하여 근거가 있는 실패 관찰을 수집한 다음, 웜 스타트 (warm-start) SFT를 위해 수정된 동작과 쌍을 이루는 반성 사고 (Reflection-of-Thought, RoT) 트리플렛 (ErrorType, Evidence, FixPlan)을 구축합니다. 그 다음, 그룹 상대적 이점 (group-relative advantages)을 사용하여 로컬 궤적 내에서 반성 토큰과 수정 동작을 공동으로 최적화하며, 불필요한 반성을 줄이기 위해 반성 비용 (reflection-cost) 항을 포함합니다. GTA 및 GAIA에 대한 실험 결과, 동일한 백본 (backbone)과 도구 세트 하에서 ReGRPO는 강력한 오픈 소스 베이스라인들을 지속적으로 능가하며 비교된 오픈 소스 컨트롤러들 중 최고의 성능을 달성했습니다. 코드와 RoT 데이터는 https://github.com/showlab/ReGRPO 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기