arXiv논문2026. 06. 23. 14:29

CFPO: 멀티모달 추론을 위한 반사실적 정책 최적화 (Counterfactual Policy Optimization)

요약

LVLM의 접지 실패와 환각 문제를 해결하기 위해 인과적 일관성을 강제하는 CFPO 프레임워크를 제안합니다. 시각적 단서가 억제된 반사실적 상태를 활용해 모델의 정책을 정규화하며, 기존 RL 알고리즘과 쉽게 통합 가능합니다.

핵심 포인트

시각적 인지와 텍스트 추론 간의 인과적 일관성 확보
반사실적 강화 메커니즘을 통한 환각 드리프트 및 접지 실패 방지
외부 보상 모델 없이 GRPO, DAPO 등 표준 알고리즘과 통합 가능
기존 RL 베이스라인 및 최신 인지 인식 방법론 대비 성능 향상 입증

대형 시각-언어 모델 (Large Vision-Language Models, LVLMs)은 멀티모달 추론 (multimodal reasoning)에서 놀라운 능력을 보여주었습니다. 그러나 기존의 강화학습 (reinforcement learning, RL) 패러다임은 명시적인 반사실적 강화 (counterfactual enhancement) 및 인과 학습 (causal learning) 메커니즘이 부족합니다. 이러한 근본적인 결함은 시각적 증거보다 언어적 사전 지식 (language priors)을 선호하거나, 긴 사고 사슬 (chain-of-thought) 추론 과정에서 환각 드리프트 (hallucination drift)를 보이는 것과 같은 심각한 접지 실패 (grounding failures)를 초래합니다. 이 근본 원인을 해결하기 위해, 우리는 시각적 인지 (visual perception)와 텍스트 추론 (textual reasoning) 사이의 인과적 일관성 (causal consistency)을 강제하는 새로운 프레임워크인 CFPO (CounterFactual Policy Optimization)를 제안합니다. CFPO는 교차 모달 반사실적 강화 (cross-modal counterfactual enhancement) 메커니즘을 도입하며, 이는 핵심적인 시각적 단서가 억제된 반사실적 상태 (counterfactual state)에서의 모델 예측과 실제 모델 예측 사이의 불일치 (discrepancy)를 최대화함으로써 정책 (policy)을 정규화합니다. 이 접근 방식은 외부 보상 모델 (reward models)이나 추가적인 감독 (supervision)을 필요로 하지 않고 GRPO 및 DAPO와 같은 표준 알고리즘과 원활하게 통합됩니다. 광범위한 실험을 통해 CFPO가 추론 충실도 (reasoning fidelity)를 크게 향상시킨다는 것을 입증하였으며, 표준 RL 베이스라인 대비 3.17%-6.25%, 최신 인지 인식 방법론 (perception-aware method)인 PAPO 대비 1.32%-2.13%의 일관된 성능 향상을 달성했습니다. 코드는 https://github.com/Raven-July/CFPO 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

CFPO: 멀티모달 추론을 위한 반사실적 정책 최적화 (Counterfactual Policy Optimization)

요약

핵심 포인트

댓글