arXiv논문2026. 06. 16. 10:58

무손실 LLM 가중치 압축을 통한 Shannon Bound 접근

요약

LLM 가중치의 낮은 내재적 무작위성을 활용하여 가중치 값의 손실 없이 저장 공간을 획기적으로 줄이는 무손실 압축 연구를 소개합니다. ANS 기반의 실시간 압축 해제 프레임워크를 통해 GPU 추론 성능과 처리량을 크게 개선했습니다.

핵심 포인트

LLM 가중치의 유효 엔트로피가 실제 비트 너비보다 2~10배 낮음을 발견
ANS 기반의 타일 수준 실시간 무손실 압축 해제 프레임워크 도입
Shannon 한계에 근접한 비트율 달성 및 통계적 중복성 제거
SGLang 통합 시 Mixtral-176B 기준 처리량 최대 1.6배 향상

대규모 언어 모델 (LLMs)은 이제 수조 개의 파라미터 규모로 확장되고 있으며, 이는 가중치 저장 용량을 테라바이트(terabyte) 영역으로 몰아넣어 GPU 메모리 용량과의 심각한 불일치를 초래하고 있습니다. 무손실 압축 (lossless compression)이 다른 분야에서는 널리 효과적임에도 불구하고, LLM 시스템에서는 여전히 충분히 활용되지 못하고 있습니다. 1.5B에서 405B 파라미터에 이르는 모델들과 bf16에서 int4 및 AWQ/SQ8에 이르는 수치 형식 (numeric formats) 전반에 걸친 포괄적인 엔트로피 (entropy) 연구를 통해, 우리는 LLM 가중치가 저장된 비트 너비 (bitwidth)가 시사하는 것보다 훨씬 적은 내재적 무작위성 (intrinsic randomness)을 포함하고 있으며, 유효 엔트로피 (effective entropy)가 210배 더 낮다는 것을 발견했습니다. 이는 가중치 값을 전혀 변경하지 않고도 이론적으로 최대 10배의 점유 공간 (footprint) 감소가 가능하다는 것을 나타냅니다. 이러한 통찰을 활용하여, 우리는 비대칭 수치 체계 (Asymmetric Numeral Systems)를 기반으로 하며 GPU 추론의 GEMM 타일링 패턴 (tiling pattern)과 디코딩을 일치시키는 타일 수준의 실시간 (on-the-fly) 무손실 압축 해제 프레임워크를 도입합니다. 우리의 설계는 광범위한 LLM 수치 형식에 걸쳐 Shannon 한계 (Shannon limit)의 0.010.1 비트 이내의 비트율 (bit-rates)을 달성하며, 거의 모든 통계적 중복성 (statistical redundancy)이 제거되었음을 입증합니다. 멀티 GPU 지원을 갖춘 SGLang 서빙 프레임워크에 통합된 우리의 방식은 Qwen-14B의 최대 배치 크기 (batch size)를 47에서 75로 증가시켜 처리량 (throughput)을 최대 1.2배 개선합니다. Mixtral-176B의 경우, 가능한 배치 크기가 20에서 95(4.8배)로 증가하여 최대 1.6배의 처리량 향상을 가져옵니다. 최첨단 무손실 압축 방식인 NeuZip 및 DFloat11과 비교했을 때, 우리의 설계는 처리량을 최대 11배까지 추가로 개선합니다.

AI 자동 생성 콘텐츠

원문 바로가기

무손실 LLM 가중치 압축을 통한 Shannon Bound 접근

요약

핵심 포인트

댓글