arXiv논문2026. 05. 04. 18:41

지속적인 시각 기억: LVLMs의 심층 생성을 위한 지속적 인식

요약

본 논문은 자기회귀 대규모 비전-언어 모델(LVLMs)이 긴 텍스트 시퀀스에서 발생하는 '시각 신호 희석' 문제를 해결하기 위해 지속적인 시각 기억(PVM)을 제안합니다. PVM은 LVLMs의 FFN과 병렬로 통합되는 경량 모듈로, 거리와 무관한 검색 경로를 통해 정확한 시각 임베딩을 제공하여 깊은 생성 과정에서 발생하는 신호 억제를 구조적으로 완화합니다. Qwen3-VL 모델에 대한 실험 결과, PVM이 적은 파라미터 오버헤드로도 일관되고 유의미한 성능 향상을 보여주었으며, 특히 복잡한 추론 작업에서 효과적임을 입증했습니다.

핵심 포인트

LVLMs는 긴 시퀀스 길이에서 '시각 신호 희석' 현상(Visual Signal Dilution)을 겪어 시각 주의가 감소하는 문제가 있습니다.
제안된 지속적인 시각 기억(PVM)은 LVLMs의 FFN과 병렬로 통합되는 경량 모듈입니다.
PVM은 거리와 무관한 검색 경로를 설정하여 정확한 시각 임베딩을 제공함으로써 신호 억제를 완화합니다.
Qwen3-VL 모델에 적용된 PVM은 낮은 파라미터 오버헤드로도 평균 정확도를 높이고, 특히 복잡한 추론 작업에서 성능 향상을 보였습니다.

자기회귀 대규모 비전-언어 모델 (LVLMs) 은 다중 모달리티 작업을 놀라운 숙련도로 수행하지만, 텍스트 역사의 축적이 주의를 분할 함수를 확장시켜 시각적 주의를 생성된 시퀀스 길이에 반비례하여 감소시키는 "시각 신호 희석" 현상을 겪습니다. 이를 극복하기 위해 우리는 지속적인 시각 기억 (PVM) 을 제안합니다. PVM 은 LVLMs 의 Feed-Forward Network (FFN) 과 병렬로 통합되는 경량 학습 가능한 모듈로, 심층 생성에 내재된 신호 억제 구조적으로 완화하기 위해 정확한 시각적 인식을 위해 직접 시각 임베딩을 제공하는 거리를 무관한 검색 경로를 설정합니다. Qwen3-VL 모델에 대한 광범위한 실험은 PVM 이 거의 없는 파라미터 오버헤드와 함께 유의미한 개선점을 가져왔음을 보여주며, 4B 와 8B 규모 모두에서 일관된 평균 정확도 향상을 제공하며, 특히 지속적인 시각 인식을 필요로 하는 복잡한 추론 작업에서 더욱 두드러집니다. 또한, PVM 이 길이 유도 신호 감쇠에 저항할 수 있고 내부 예측 수렴을 가속화할 수 있음을 심층 분석이 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

지속적인 시각 기억: LVLMs의 심층 생성을 위한 지속적 인식

요약

핵심 포인트

댓글