LFQ: 저비트 양자화된 LLM의 생성 품질 향상을 위한 로짓 인식 최종 블록 양자화 (Logit-aware Final-block
요약
LLM의 저비트 양자화 과정에서 발생하는 생성 품질 저하 문제를 해결하기 위한 LFQ 기법을 제안합니다. 로짓(Logit) 수준의 교차 엔트로피를 최소화하여 최종 블록을 양자화함으로써, 생성 작업의 정확도를 크게 향상시킵니다.
핵심 포인트
- 블록 단위 PTQ의 생성 품질 저하 원인 분석
- 언임베딩 레이어 누락 및 MSE 목적 함수의 한계 지적
- 로짓 기반 교차 엔트로피 최소화 방식 제안
- 언어 모델링 및 생성 작업에서 SOTA 성능 달성
대규모 언어 모델 (LLM)의 규모가 계속해서 확장됨에 따라, 저비트 가중치 전용 사후 학습 양자화 (Post-Training Quantization, PTQ)는 메모리 효율적인 배포를 위한 실질적인 해결책을 제공합니다. 블록 단위 (Block-wise) PTQ는 기본적인 언어 모델링 및 이해 작업에서는 전정밀도 (Full-Precision, FP) 베이스라인과 대등한 성능을 보일 수 있지만, 생성 작업에서는 품질이 저하됩니다. 특히 작업 정확도를 높이는 데 중요한 긴 응답과 확장된 사고 사슬 (Chain of Thought) 상황에서 더욱 그러합니다. 우리는 이러한 부족함의 원인을 두 가지 요인으로 분석합니다: (i) 블록 단위 최적화 과정에서 언임베딩 레이어 (Unembedding layer, 즉 LM head)의 누락, 그리고 (ii) 평균 제곱 오차 (Mean Squared Error, MSE) 목적 함수에 대한 의존성입니다. 이 두 요인은 모두 양자화된 모델의 토큰 확률 분포를 FP 모델의 분포와 어긋나게 만들어, 텍스트 생성 벤치마크에서 눈에 띄는 정확도 하락을 초래합니다. 이러한 불일치를 바로잡기 위해, 우리는 Logit-aware Final-block Quantization (LFQ)을 제안합니다. 이는 FP 모델의 로짓 (Logits)과 양자화된 모델의 로짓 사이의 교차 엔트로피 (Cross-entropy)를 최소화함으로써 최종 Transformer 블록을 양자화하는, 블록 단위 PTQ에 대한 단순하면서도 효과적인 개선 방식입니다. 최종 블록에서 로짓 수준의 토큰 확률을 정렬함으로써, LFQ는 언어 모델링 및 이해 작업에서는 FP 베이스라인과 대등한 수준을 유지하는 동시에, 다양한 모델 제품군에 걸쳐 최첨단 (State-of-the-art) 블록 단위 PTQ보다 복잡한 생성 작업의 정확도를 일관되게 향상시킵니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기