arXiv논문2026. 05. 28. 13:21

멀티모달 에이전트 추론을 위한 에이전트 탐색적 정책 최적화 (Agent Explorative Policy Optimization)

요약

멀티모달 에이전트의 사고와 도구 사용 간의 불균형인 '사고-행동 격차(Thinking-Acting Gap)'를 해결하기 위한 AXPO 알고리즘을 제안합니다. AXPO는 불확실성 기반의 재샘플링을 통해 도구 호출 성능을 최적화하며, 실험 결과 기존 GRPO 대비 우수한 성능과 효율성을 입증했습니다.

핵심 포인트

사고와 도구 사용 간의 비대칭성인 '사고-행동 격차' 정의
AXPO를 통한 도구 호출 및 후속 과정의 효과적인 재샘플링
Qwen3-VL-Thinking 모델 대상 9개 벤치마크 성능 향상 입증
8B 모델이 4배 적은 파라미터로 32B 모델의 성능을 상회

확장된 추론 (extended reasoning) 능력을 갖춘 시각-언어 모델 (Vision-language models)은 복잡한 문제에서 성공을 거두지만, 많은 현실 세계의 문제들은 내부 추론만으로는 해결할 수 없는 외부 도구 (external tools)를 필요로 합니다. 따라서 에이전트 추론 (Agentic reasoning)은 구조적 비대칭성을 가진 두 가지 행동을 교차시킵니다: 사고 (thinking, 자기 완결적인 기본 동작)와 도구 사용 (tool use, 변동성이 큰 보조적 행동). 우리는 이러한 비대칭성을 사고-행동 격차 (Thinking-Acting Gap)라고 부릅니다. GRPO와 같은 표준 강화학습 (RL) 레시피 하에서, 이 격차는 학습 과정 중 두 가지 진단적 증상으로 나타납니다: 도구 사용이 전체 롤아웃 (rollouts) 중 약 30%에서만 시도되며, 시도되었을 때 그룹 내의 도구 사용 롤아웃이 약 40%의 질문에서 모두 오답(all-wrong)을 기록하여, 정작 필요한 도구 호출 (tool calls) 시점의 학습 신호를 억제한다는 점입니다. 우리는 AXPO (Agent eXplorative Policy Optimization)를 제안합니다: 모든 오답 도구 사용 서브그룹 (subgroup)에 대해, AXPO는 사고 접두사 (thinking prefix)를 고정하고 도구 호출 및 그 후속 과정을 재샘플링하며, 불확실성 기반 접두사 선택 (uncertainty-based prefix selection)을 결합합니다. 9개의 멀티모달 벤치마크와 3가지 규모의 Qwen3-VL-Thinking을 대상으로 실험한 결과, SFT+AXPO는 SFT+GRPO보다 평균적으로 우수한 성능을 보였으며 (8B 모델 기준 평균 Pass@1 +1.8pp 및 Pass@4 +1.8pp 향상), SFT+AXPO를 적용한 8B 모델은 4배 적은 파라미터로 Pass@4에서 32B Base 모델을 능가했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

멀티모달 에이전트 추론을 위한 에이전트 탐색적 정책 최적화 (Agent Explorative Policy Optimization)

요약

핵심 포인트

댓글