arXiv논문2026. 04. 28. 20:45

효율적인 VQ-QAT 및 혼합 벡터/선형 양자화 신경망

요약

본 논문은 벡터 양자화(VQ)를 활용하여 신경망 가중치를 효율적으로 압축하는 세 가지 기법을 개발하고 검증했습니다. 코사인 유사도 기반 할당 방식을 채택하고, 이를 top-1 샘플링 및 스트레이트-through 추정기(STE)와 결합하여 가중 평균 재구성을 제거함으로써 접근 방식을 개선했습니다. 또한, 미분 가능한 신경 구조 검색(NAS)을 활용하여 레이어별 양자화 구성을 최적화하는 방법을 제시합니다.

핵심 포인트

VQ 기반 모델 압축을 위한 세 가지 새로운 기법이 개발 및 검증되었습니다.
코사인 유사도 할당 방식에 top-1 샘플링과 STE를 결합하여 가중 평균 재구성을 제거함으로써 효율성을 높였습니다.
미분 가능한 신경 구조 검색(NAS)을 활용하여 레이어별 양자화 구성을 적응적으로 최적화할 수 있습니다.
제안된 방법은 VQ 기반 모델 압축의 설계 트레이드오프와 동작에 대한 중요한 통찰력을 제공합니다.

본 논문에서는 벡터 양자화 (VQ) 기반 모델 가중치 압축을 위한 3 가지 기법을 개발하고 검증했습니다. 코드북 붕괴를 완화하고 엔드투엔드 학습을 가능하게 하기 위해 코사인 유사도 기반 할당 방식을 채택했습니다. Differentiable K-Means (DKM) 의 주의력 기반 공식화에서 영감을 받아, 코사인 유사도를 활용한 할당 방식에 top-1 샘플링과 스트레이트-through 추정기를 결합하여 가중 평균 재구성을 불필요하게 하는 방식으로 이 접근법을 더욱 개선했습니다. 마지막으로, 레이어별 양자화 구성을 적응적으로 선택하기 위해 미분 가능한 신경 구조 검색 (NAS) 의 활용을 조사하여 압축 과정을 추가로 최적화했습니다. 우리의 방법은 모든 양자화 수준에서 기존 접근법보다 일관되게 우수한 성능을 보이지는 않지만, VQ 기반 모델 압축 방법의 설계 트레이드오프와 동작에 대한 유용한 통찰력을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

효율적인 VQ-QAT 및 혼합 벡터/선형 양자화 신경망

요약

핵심 포인트

댓글