arXiv논문2026. 05. 05. 16:50

시각적 잠재 공간이 말하는 것보다 더 많이 알고 있다: MLLM 의 잠재 추론을 소음 없이 활성화하다

요약

이 논문은 다중 모달 모델(MLLM)에서 시각적 잠재 공간이 가진 잠재적인 추론 능력이 실제 답변 예측 과정에서 체계적으로 억제되는 'Silenced Visual Latents' 문제를 식별하고 해결책을 제시합니다. 연구진은 백본 파라미터를 고정한 상태에서, 두 단계의 최적화 과정을 통해 잠재 추론 자체를 직접 개선하는 방법을 제안했습니다. 이 방법은 시각적 잠재 공간의 의미적 품질을 높이고(Stage I), 예측 토큰이 잠재 스페인을 따라 점진적으로 집중되도록 유도하여(Stage II) 모델의 억제된 추론 능력을 효과적으로 해방시킵니다.

핵심 포인트

MLLM에서 시각적 잠재 공간은 의미적으로 풍부하지만, 실제 답변 예측에 기여하는 것이 체계적으로 억제되는 'Silenced Visual Latents' 문제가 존재한다.
이 문제를 해결하기 위해 백본 파라미터를 고정하고 추론 시간(inference time)에 직접 잠재 추론을 최적화하는 새로운 접근 방식을 사용했다.
Stage I에서는 쿼리 유도 대비 잠재-시각 정렬을 통해 시각적 잠재 공간의 의미적 품질을 개선하고 붕괴를 방지한다.
Stage II에서는 확률 진전 보상(confidence-progression reward)을 도입하여 예측 토큰이 잠재 스페인을 따라 점진적으로 집중되도록 유도함으로써 추론 능력을 극대화한다.

연속적인 잠재 공간 추론은 다중 모달 모델 (Multimodal Models) 에게 명시적인 추론 토큰 없이 고차원 시각적 증거를 통합할 수 있는 텍스트 기반 체인 오브 스소트 (textual chain-of-thought) 의 컴팩트한 대안입니다. 그러나 우리는 기존 잠재 시각 추론 방법에서 이전에 간과된 최적화 병리 현상을 식별했습니다: 시각적 잠재 공간은 훈련 중에 의미적으로 풍부해지지만, 최종 답변 예측에 대한 그들의 기여는 체계적으로 억제됩니다. 공유 파라미터 공간 내에서 자동 회귀 목표 (autoregressive objective) 는 직접적인 시각 입력에 대한 단축기 의존성을 선호하여 잠재 토큰을 정보 있는 추론 내용보다는 전이 상태 (transition-like states) 로推向합니다. 우리는 이 현상을 'Silenced Visual Latents'라고 명명했습니다.

이를 해결하기 위해, 우리는 두 개의 상충되는 목표를 분리하고 추론 시간 (inference time) 에서 직접 잠재 추론을 최적화하여 백본 파라미터를 고정 (frozen) 합니다. 1 단계 (Stage I) 에서는 쿼리 유도 대비 잠재-시각 정렬 (query-guided contrastive latent--visual alignment) 을 통해 시각적 잠재 공간을 가열 (warm up) 하여 의미적 품질을 개선하고 잠재 공간 붕괴 (latent collapse) 를 방지합니다. 2 단계 (Stage II) 에서는 확률 진전 보상 (confidence-progression reward) 을 통해 잠재 추론을 추가로 최적화하며, 이는 예측 토큰 분포가 잠재 스페인 (latent span) 을 따라 점진적으로 집중되도록 장려하고, 예측을 잠재 추론을 우회하지 않고 통과하도록 라우팅합니다. 8 개의 벤치마크와 4 개의 모델 백본에 걸친 실험은 파라미터 업데이트 없이 추론 시간 잠재 최적화가 시각적 잠재 공간의 억제된 추론 능력을 효과적으로 해방함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

시각적 잠재 공간이 말하는 것보다 더 많이 알고 있다: MLLM 의 잠재 추론을 소음 없이 활성화하다

요약

핵심 포인트

댓글