arXiv논문2026. 04. 23. 23:45

V-tableR1: 테이블 기반 다중 모드 추론을 위한 프로세스 감독 강화학습

요약

본 논문은 멀티모달 LLM(MLLMs)의 시각적 추론 능력을 향상시키기 위해 V-tableR1이라는 프로세스 감독 강화학습 (process-supervised RL) 프레임워크를 제안합니다. 기존 MLLMs는 최종 결과에만 초점을 맞춰 복잡한 다단계 추론 과정이 불투명하거나 표면적인 패턴 매칭에 의존하는 경향이 있습니다. V-tableR1은 테이블의 결정적 그리드 구조를 활용하여 이러한 문제를 해결하며, 전문 비평가 VLM(Critic VLM)을 이용해 정책 VLM(Policy VLM)이 생성한 명시적인 시각적 사고 과정(chain

핵심 포인트

V-tableR1은 MLLM의 추론 과정을 감독하는 프로세스 기반 강화학습 프레임워크입니다.
테이블 구조를 활용하여 복잡하고 검증 가능한 다단계 논리 전개에 초점을 맞춥니다.
새로운 알고리즘인 PGPO(Process-Guided Direct Alignment Policy Optimization)를 통해 시스템을 최적화했습니다.
V-tableR1은 시각적 환각이나 지름길 추측을 명시적으로 페널티 부여하여 성능을 향상시킵니다.

최근의 멀티모달 LLM(MLLMs)들은 최종 결과 도출에만 집중하는 경향이 있어, 복잡한 시각적 추론 과정이 불투명하거나 단순 패턴 매칭에 의존할 수 있습니다. 이러한 문제를 해결하기 위해 본 연구에서는 프로세스 감독 강화학습 (process-supervised RL) 프레임워크인 V-tableR1을 제안합니다.

V-tableR1은 테이블의 결정적인 그리드 구조를 이상적인 시각적 테스트베드로 활용하여, MLLM이 엄격하고 검증 가능한 다단계 추론 과정을 거치도록 유도합니다. 특히, 전문 비평가 VLM (Critic VLM)을 도입하여 정책 VLM (Policy VLM)이 생성하는 명시적인 시각적 사고 과정(chain-of-thought)에 대해 단계별 피드백을 제공합니다.

시스템 최적화를 위해 프로세스 기반 보상, 분리된 정책 제약 조건, 길이 인식 동적 샘플링을 통합한 새로운 알고리즘인 PGPO (Process-Guided Direct Alignment Policy Optimization)를 개발했습니다. 광범위한 평가 결과에 따르면, V-tableR1은 시각적 환각이나 지름길 추측(shortcut guessing)을 명확하게 페널티화하는 능력을 보여줍니다.

결론적으로, V-tableR1은 다중 모드 추론의 패러다임을 '블랙박스 패턴 매칭'에서 '검증 가능한 논리적 도출'로 근본적으로 전환하며, 오픈 소스 모델 중 복잡한 테이블 벤치마크에서 최고 수준의 정확도를 달성했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

V-tableR1: 테이블 기반 다중 모드 추론을 위한 프로세스 감독 강화학습

요약

핵심 포인트

댓글