STaR-Quant: Diffusion 대규모 언어 모델을 위한 상태-시간 일관성 유지 사후 학습 양자화
요약
Diffusion LLM의 메모리 및 연산 오버헤드를 줄이기 위한 새로운 사후 학습 양자화(PTQ) 프레임워크인 STaR-Quant를 제안합니다. 상태 의존적 활성화 불일치와 시간적 오차 누적 문제를 해결하여 저비트 양자화 성능을 극대화했습니다.
핵심 포인트
- Diffusion LLM의 상태-시간 일관성 유지 PTQ 프레임워크 제안
- SGAT를 통한 마스크 토큰별 활성화 변환 공간 할당
- TAC를 도입하여 반복적 디코딩 중 발생하는 시간적 오차 보정
- FP16 대비 최대 1.69배 속도 향상 및 3.14배 메모리 절감
Diffusion 대규모 언어 모델 (Diffusion Large Language Models, DLLMs)은 양방향 문맥 (bidirectional context)을 활용한 반복적인 마스크 디노이징 (masked denoising)을 통해 텍스트를 생성함으로써, 최근 자기회귀 (autoregressive) LLM의 유망한 대안으로 부상했습니다. 그러나 이들의 거대한 모델 크기와 반복적인 디노이징 과정은 상당한 메모리 및 연산 오버헤드를 발생시키며, 이는 효율적인 배포를 위한 사후 학습 양자화 (post-training quantization, PTQ)의 필요성을 불러일으킵니다. 본 논문에서 우리는 저비트 (low-bit) DLLM 양자화의 두 가지 핵심 과제를 식별했습니다: 상태 의존적 활성화 불일치 (state-dependent activation disparity)와 시간적 오차 누적 (temporal error accumulation)입니다. 마스크 처리된 토큰 (masked tokens)과 마스크 처리되지 않은 토큰 (unmasked tokens)은 각 디노이징 단계 내에서 서로 다른 활성화 분포 (activation distributions)를 보이는 반면, 양자화 오차는 반복적인 디코딩 과정 중 단계별로 누적될 수 있습니다. 이러한 과제를 해결하기 위해, 우리는 DLLM을 위한 상태-시간 일관성 유지 PTQ 프레임워크인 STaR-Quant를 제안합니다. STaR-Quant는 상태 유도 활성화 변환 (State-Guided Activation Transformation, SGAT)을 도입하여, 통합된 정적 가중치 측 변환 (static weight-side transformation)과 함께 마스크 처리된 토큰과 마스크 처리되지 않은 토큰을 서로 다른 활성화 변환 공간에 할당합니다. 나아가, 경량 블록 대각 어파인 매핑 (block-diagonal affine mapping)을 통해 양자화된 어텐션 표현 (attention representation)을 교정하는 시간적 어텐션 보상 (Temporal Attention Compensation, TAC)을 도입합니다. 대표적인 DLLM들에 대한 실험 결과, STaR-Quant는 강력한 PTQ 베이스라인들에 비해 저비트 가중치-활성화 양자화 성능을 일관되게 향상시키는 동시에, FP16 배포 대비 최대 1.69배의 속도 향상과 3.14배의 메모리 절감 효과를 제공함을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기