SPEAR: 효율적인 저비트 LLM 서빙을 가능하게 하는 양자화 후 오차 적응형 복구 시스템
요약
SPEAR는 저비트 LLM 서빙 시 발생하는 양자화 오차를 줄이기 위한 적응형 복구 시스템입니다. 토큰별 게이트와 경량 오차 보상기를 활용해 모델 성능 저하를 최소화하면서도 효율적인 서빙을 가능하게 합니다.
핵심 포인트
- 토큰별 입력 특성에 맞춘 적응형 오차 보상 메커니즘 도입
- CKA 가이드 진단을 통해 오차 민감 레이어에만 보상기 배치
- 커널 퓨전 및 SLO 제약 스케줄러로 시스템 지연 시간 최적화
- 메모리 오버헤드 1% 미만 유지하며 4비트 퍼플렉시티 격차 56-75% 복구
효율적인 대규모 언어 모델 (LLM) 서빙은 배포 비용에 의해 점점 더 제약을 받고 있습니다. 양자화 (Quantization)는 서빙 비용을 줄이기 위한 핵심 기술이지만, 최첨단 4비트 양자화기조차 FP16과 눈에 띄는 품질 격차를 보이며, 특히 저비트 서빙이 가장 유익한 소형 모델에서 이러한 현상이 두드러집니다. 우리는 이 격차의 근본적인 원인을 파악했습니다. 양자화 오차는 입력에 따라 크게 달라지며 토큰 간에도 상당한 차이가 있는 반면, 기존의 양자화 후 보상 (post-quantization compensation) 방법들은 정적이며 모든 입력에 동일한 수정을 적용한다는 점입니다. 그 결과, 쉬운 토큰은 과도하게 수정되는 반면 어려운 토큰은 여전히 미흡하게 수정된 상태로 남게 됩니다. 우리는 저비트 LLM 서빙을 개선하는 양자화 후 오차 적응형 복구 시스템인 SPEAR를 제안합니다. SPEAR는 토큰별 게이트 (per-token gates)에 의해 조절되는 경량 오차 보상기 (Error Compensators, ECs)를 도입하며, CKA 가이드 엔트로피 인식 진단 (CKA-guided entropy-aware diagnostic)을 통해 식별된 가장 오차에 민감한 레이어에만 이를 배치합니다. 이를 통해 적은 파라미터 예산을 가장 효과적인 곳에 집중시킵니다. EC의 효율적인 배포는 추가적인 연산, 입력 의존적 게이팅으로 인한 텐서 병렬 (tensor-parallel) 동기화, 구성에 따른 지연 시간 불안정성 등 여러 시스템적 과제를 안겨줍니다. SPEAR는 적응형 커널 퓨전 디스패치 (adaptive kernel-fusion dispatch)를 통해 이러한 문제를 해결합니다. 이는 에필로그 통합 피어 리덕션 커널 (epilogue-integrated peer-reduction kernel)과 P2P 이중 쓰기 (P2P dual-write)를 결합하여 EC 후 연산을 저비트 GEMM에 융합하며, 예측 가능한 서빙 성능을 위해 SLO 제약 기반의 EC 인식 스케줄러 (SLO-constrained EC-aware scheduler)를 사용합니다. 까다로운 채널별 양자화 (per-channel quantization) 설정 전반에 걸쳐, SPEAR는 모델 메모리 오버헤드를 1% 미만으로 추가하면서도 널리 사용되는 4비트 서빙 배포와 유사한 지연 시간을 유지하며 W4와 FP16 사이의 퍼플렉시티 (perplexity) 격차를 56-75% 복구합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기