멀티모달 에이전트 추론을 위한 에이전트 탐색적 정책 최적화 (Agent Explorative Policy Optimization)
요약
멀티모달 에이전트의 사고와 도구 사용 간의 불균형인 '사고-행동 격차(Thinking-Acting Gap)'를 해결하기 위한 AXPO 알고리즘을 제안합니다. AXPO는 불확실성 기반의 재샘플링을 통해 도구 호출 성능을 최적화하며, 실험 결과 기존 GRPO 대비 우수한 성능과 효율성을 입증했습니다.
핵심 포인트
- 사고와 도구 사용 간의 비대칭성인 '사고-행동 격차' 정의
- AXPO를 통한 도구 호출 및 후속 과정의 효과적인 재샘플링
- Qwen3-VL-Thinking 모델 대상 9개 벤치마크 성능 향상 입증
- 8B 모델이 4배 적은 파라미터로 32B 모델의 성능을 상회
확장된 추론 (extended reasoning) 능력을 갖춘 시각-언어 모델 (Vision-language models)은 복잡한 문제에서 성공을 거두지만, 많은 현실 세계의 문제들은 내부 추론만으로는 해결할 수 없는 외부 도구 (external tools)를 필요로 합니다. 따라서 에이전트 추론 (Agentic reasoning)은 구조적 비대칭성을 가진 두 가지 행동을 교차시킵니다: 사고 (thinking, 자기 완결적인 기본 동작)와 도구 사용 (tool use, 변동성이 큰 보조적 행동). 우리는 이러한 비대칭성을 사고-행동 격차 (Thinking-Acting Gap)라고 부릅니다. GRPO와 같은 표준 강화학습 (RL) 레시피 하에서, 이 격차는 학습 과정 중 두 가지 진단적 증상으로 나타납니다: 도구 사용이 전체 롤아웃 (rollouts) 중 약 30%에서만 시도되며, 시도되었을 때 그룹 내의 도구 사용 롤아웃이 약 40%의 질문에서 모두 오답(all-wrong)을 기록하여, 정작 필요한 도구 호출 (tool calls) 시점의 학습 신호를 억제한다는 점입니다. 우리는 AXPO (Agent eXplorative Policy Optimization)를 제안합니다: 모든 오답 도구 사용 서브그룹 (subgroup)에 대해, AXPO는 사고 접두사 (thinking prefix)를 고정하고 도구 호출 및 그 후속 과정을 재샘플링하며, 불확실성 기반 접두사 선택 (uncertainty-based prefix selection)을 결합합니다. 9개의 멀티모달 벤치마크와 3가지 규모의 Qwen3-VL-Thinking을 대상으로 실험한 결과, SFT+AXPO는 SFT+GRPO보다 평균적으로 우수한 성능을 보였으며 (8B 모델 기준 평균 Pass@1 +1.8pp 및 Pass@4 +1.8pp 향상), SFT+AXPO를 적용한 8B 모델은 4배 적은 파라미터로 Pass@4에서 32B Base 모델을 능가했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기