본문으로 건너뛰기

© 2026 Molayo

X요약2026. 05. 06. 03:34

LVLMs 의 지속적 시각 기억: 텍스트 히스토리 성장으로부터 시각 검색을 보호하는 병렬 분지

요약

본 기술 기사는 대규모 시각 언어 모델(LVLMs)이 텍스트 히스토리가 길어짐에 따라 발생하는 '시각 신호 희석' 문제를 해결하는 방법을 제시합니다. 이를 위해, 시각 검색 정보를 텍스트 입력의 성장으로부터 독립적으로 보호하는 병렬 분지 구조를 도입했습니다. 이 방법은 Qwen3-VL 모델에 적은 파라미터(28M)만 추가하여도 복잡한 추론을 위한 지속적인 시각 인식 능력을 향상시킬 수 있습니다.

핵심 포인트

  • LVLMs의 주요 과제 중 하나는 텍스트 히스토리 증가에 따른 '시각 신호 희석(Visual Signal Dilution)' 현상입니다.
  • 이 문제를 해결하기 위해, 시각 검색 정보를 보호하는 독립적인 병렬 분지 구조를 제안합니다.
  • 적은 추가 파라미터(28M)만으로도 모델의 지속적인 시각 인식 능력을 크게 향상시킬 수 있습니다.
  • 제안된 아키텍처는 복잡한 추론 과정에서 안정적인 시각 정보를 유지하는 데 초점을 맞춥니다.

Persistent Visual Memory for LVLMs

LVLMs 를 위한 지속적 시각 기억. 텍스트 히스토리가 커짐에 따라 발생하는 '시각 신호 희석 (Visual Signal Dilution)' 문제를 해결하기 위해, 시각 검색을 텍스트 히스토리 성장으로부터 보호하는 병렬 분지를 도입합니다. Qwen3-VL 에 28M 파라미터 (0.32%) 만 추가하면서도 복잡한 추론을 위한 지속적 인식력을 제공합니다.

[이미지: https://pbs.twimg.com/media/HHkdbMoagAAzwY5?format=png&name=small]

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0