arXiv논문2026. 05. 20. 12:04

대규모 시각-언어 모델(VLMs)의 저비트 양자화(Quantization)를 위한 모달리티 이질성 극복

요약

본 연구는 시각-언어 모델(VLMs)의 저비트 사후 훈련 양자화(PTQ) 시 발생하는 텍스트와 시각 모달리티 간의 활성화 분포 불일치 문제를 해결하기 위한 SplitQ 프레임워크를 제안합니다. SplitQ는 모달리티 특화 이상치 채널을 격리하는 MOCD 모듈과 양자화 오차를 동적으로 완화하는 ACC 모듈을 통해 모델의 정확도 저하를 최소화합니다. 실험 결과, SplitQ는 W3A3와 같은 극한의 양자화 설정에서도 FP16 성능의 93.5%를 유지하며 기존 방식보다 뛰어난 성능을 입증했습니다.

핵심 포인트

VLMs 양자화 시 모달리티 간의 이질적인 활성화 분포가 정확도 저하의 주요 원인임을 규명
모달리티 특화 이상치 채널을 효과적으로 격리하는 MOCD(Modality-specific Outlier Channel Decoupling) 모듈 도입
경량 학습 가능 분기를 통해 양자화 오차를 동적으로 보정하는 ACC(Adaptive Cross-Modal Calibration) 모듈 설계
W3A3 설정에서 FP16 대비 93.5%의 높은 성능 유지 및 다양한 양자화 설정에서 우수한 성능 입증

저비트 사후 훈련 양자화 (Post-Training Quantization, PTQ)는 자원이 제한된 장치에 시각-언어 모델 (Vision-Language Models, VLMs)을 배포하기 위한 핵심 기술입니다. 그러나 기존의 PTQ 방식은 양자화 과정 중 텍스트와 시각 모달리티 (Modality) 간의 이질적인 활성화 분포 (Activation Distributions)로 인해 VLMs의 정확도를 저하시키는 경우가 많습니다. 본 연구에서는 이러한 교차 모달리티 이질성 (Cross-modal Heterogeneity)이 채널 전체에 불균일하게 분포되어 있음을 발견했습니다. 즉, 채널의 작은 하위 집합이 대부분의 모달리티 특화 이상치 (Outliers)를 포함하고 있으며, 이러한 이상치들은 일반적으로 각 모달리티마다 서로 다른 채널에 존재합니다. 이에 착안하여, 우리는 채널 분할 기반의 사후 훈련 양자화 프레임워크인 SplitQ를 제안합니다. SplitQ의 핵심은 최소한의 오버헤드로 두드러진 모달리티 특화 이상치 채널을 효과적으로 격리하는 새로운 모달리티 특화 이상치 채널 디커플링 (Modality-specific Outlier Channel Decoupling, MOCD) 모듈을 도입하는 것입니다. 남아있는 교차 모달리티 분포 불일치를 추가로 해결하기 위해, 우리는 두 개의 경량 학습 가능 분기 (Learnable Branches)를 사용하여 모달리티로 인해 발생하는 양자화 오차를 동적으로 완화하는 적응형 교차 모달리티 보정 (Adaptive Cross-Modal Calibration, ACC) 모듈을 설계했습니다. 대중적인 VLMs에 대한 광범위한 실험 결과, SplitQ는 W4A8, W4A4, W3A3, W3A3를 포함한 모든 평가된 양자화 설정 하에서 6개의 인기 있는 멀티모달 데이터셋에 대해 기존 방식들을 크게 능가함을 입증했습니다. 특히, SplitQ는 까다로운 W3A3 설정에서 FP16 성능의 93.5%를 유지하며 (69.5 대 74.3), 고급 VLMs 배포를 위한 효율성의 한계를 넓혔습니다. 우리의 코드는 https://github.com/EMVision-NK/SplitQ 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

대규모 시각-언어 모델(VLMs)의 저비트 양자화(Quantization)를 위한 모달리티 이질성 극복

요약

핵심 포인트

댓글