시각 기반 추론을 위한 감각적 플로우 네트워크
요약
본 논문은 대규모 시각 언어 모델(LVLMs)이 겪는 언어 편향 및 환상 문제를 해결하기 위해 '감각적 플로우 네트워크(PFlowNet)'를 제안합니다. PFlowNet은 감지(perception)와 추론을 분리하여 자기 조건부 생성 과정을 확립하고, 다차원 보상과 변분 강화 학습을 통합함으로써 시각적 신뢰성을 유지하면서도 추론 지향적인 행동을 촉진합니다. 이 접근 방식은 기존의 경직된 전문가 사전 지식에 의존하는 방법들보다 더 효과적이며, 여러 벤치마크에서 새로운 최고 성능 기록(SOTA)을 달성했습니다.
핵심 포인트
- 기존 LVLMs는 표준 최적화 목표로 인해 시각적 궤적이 제약되지 않아 언어 편향 및 환상을 초래함.
- 제안된 PFlowNet은 감지(perception)와 추론을 분리하여 자기 조건부 생성 과정을 확립하는 것이 핵심 구조임.
- PFlowNet은 다차원 보상과 변분 강화 학습(Variational Reinforcement Learning)을 통합하여 시각적 신뢰성을 유지하며 추론 능력을 향상시킴.
- 이 방법은 기존의 경직된 전문가 사전 지식에 의존하는 방식보다 더 유연하고 효과적인 시각적 추론을 제공함.
대규모 시각 언어 모델 (LVLMs) 의 성공에도 불구하고, 일반적인 최적화 목표 (예: 표준 최대 가능도 추정 MLE) 는 시각적 궤적을 제약하지 못해 언어 편향과 환상 (hallucination) 을 초래합니다. 이를 완화하기 위해 현재 방법들은 시각 전문가에서 기하학적 사전지식을 추가적인 감독으로 도입하고 있습니다. 그러나 우리는 이러한 감독이 일반적으로 비최적임을 관찰했습니다: 그것은 기하학적 정밀도에 치우쳐 있으며 추론 활용도를 제한적으로 제공합니다. 이 간극을 해소하기 위해, 우리는 경직된 전문가 사전 지식과의 정렬을 배제하고 해석 가능하면서도 더 효과적인 시각적 추론을 달성하는 감각적 플로우 네트워크 (PFlowNet) 를 제안합니다. 구체적으로, PFlowNet 은 감지 (perception) 와 추론을 분리하여 자기 조건부 생성 과정을 확립합니다. 이를 기반으로, 다차원 보상과 변분 강화 학습을 통한 근접 기하학적 형성을 통합함으로써 추론 지향적인 감각적 행동을 촉진하면서도 시각적 신뢰성을 유지합니다. PFlowNet 은 증명 가능한 성능 보장을 제공하며 경쟁력 있는 실증 결과를 보여줍니다. 특히 V* Bench (90.6%) 와 MME-RealWorld-lite (67.0%) 에서 새로운 최상위 (SOTA) 기록을 세웠습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기