arXiv논문2026. 06. 10. 11:17

LC-QAT: 선형 제약 벡터 양자화 (Linear-Constrained Vector Quantization)를 통한 LLM용 데이터 효율적

요약

LC-QAT는 2비트 정밀도의 LLM을 위해 제안된 새로운 벡터 양자화(VQ) 프레임워크입니다. 아핀 매핑을 통해 미분 가능한 엔드투엔드 최적화를 구현하여, 매우 적은 데이터만으로도 기존 QAT 방식보다 뛰어난 성능을 보여줍니다.

핵심 포인트

2비트 정밀도에서 성능 저하를 해결하는 VQ-QAT 프레임워크 제안
아핀 매핑을 활용해 코드북 조회 없이 미분 가능한 최적화 구현
훈련 데이터의 0.1%~10%만 사용해도 SOTA 성능 달성
극도로 낮은 비트의 모델 배포를 위한 실용적이고 확장 가능한 솔루션

양자화 인식 훈련 (Quantization-aware training, QAT)은 극도로 낮은 비트의 대규모 언어 모델 (Large Language Models, LLMs)을 위해 필수적입니다. 현재의 QAT 방법들은 주로 스칼라 양자화 (Scalar Quantization, SQ)에 기반하고 있으며, 이는 효율적인 최적화를 가능하게 하지만 2비트 정밀도에서는 심각한 성능 저하를 겪습니다. 반면, 벡터 양자화 (Vector Quantization, VQ)는 실질적으로 더 높은 표현 능력을 제공하지만, 이산적인 코드북 조회 (codebook lookup) 방식은 엔드투엔드 (end-to-end) 훈련을 방해합니다. 우리는 이산 벡터에 대한 학습된 아핀 매핑 (affine mapping)을 통해 양자화된 가중치를 표현하는 2비트 가중치 전용 VQ-QAT 프레임워크인 LC-QAT를 제안합니다. 이는 고품질의 사후 훈련 양자화 (Post-Training Quantization, PTQ) 초기화를 생성하며, 훈련 순전파 (forward pass) 과정에서 명시적인 코드북 조회 없이도 완전히 미분 가능한 엔드투엔드 최적화를 가능하게 합니다. 이러한 강력한 사후 훈련 초기화 덕분에 LC-QAT는 매우 높은 데이터 효율성을 가집니다. 다양한 LLM에 대한 실험을 통해 LC-QAT가 훈련 데이터의 0.1%~10%만을 사용하면서도 최첨단 (state-of-the-art) QAT 방법들을 지속적으로 능가함을 입증했습니다. 우리의 결과는 LC-QAT가 극도로 낮은 비트의 모델 배포를 위한 실용적이고 확장 가능한 솔루션임을 확립합니다.

AI 자동 생성 콘텐츠

원문 바로가기

LC-QAT: 선형 제약 벡터 양자화 (Linear-Constrained Vector Quantization)를 통한 LLM용 데이터 효율적

요약

핵심 포인트

댓글