arXiv논문2026. 05. 04. 19:05

BWLA: LLMs의 W1AX 양자화 장벽 돌파

요약

본 기술 기사는 대형 언어 모델(LLMs)의 메모리 및 컴퓨팅 요구사항 문제를 해결하기 위해 BWLA (Binarized Weights and Low-bit Activations)라는 새로운 양자화 프레임워크를 제안합니다. BWLA는 가중치를 1비트로 압축하는 동시에 활성화에 저비트 정밀도(예: 6비트)를 적용하여, 기존 방법들이 해결하지 못했던 활성화의 무거운 꼬리 문제를 극복하고 높은 정확도를 유지합니다. 이 프레임워크는 Qwen3-32B 모델에서 뛰어난 성능을 보여주었으며, 추론 속도 향상과 다양한 NLP 작업에서의 개선을 입증하며 LLM 경량화에 큰 잠재력을 제시합니다.

핵심 포인트

BWLA는 1비트 가중치와 저비트 활성화(예: 6비트)를 결합한 포스트 트레이닝 양자화 프레임워크이다.
직교 크로네커 변환(OKT)을 사용하여 단일 모달 가중치를 대칭 이분 모달 형식으로 효율적으로 변환하고 불일치성을 줄인다.
근접 SVD 투영(PSP)을 통해 최소한의 오버헤드로 양자화 가능성을 높여 성능과 경량화를 동시에 달성한다.
Qwen3-32B 모델에 적용 시, 6비트 활성화에서도 높은 정확도를 유지하며 추론 속도 향상 3.26배를 달성했다.

대형 언어 모델 (LLMs) 은 NLP 의 주요 발전이 있었지만, 여전히 막대한 메모리와 컴퓨팅 요구사항은 실제 배포를 방해합니다. 이진화 (Binarization) 는 가중치를 1 비트로 압축하여 컴퓨팅 비용과 대역폭 비용을 근본적으로 낮출 수 있습니다. 그러나 기존 방법들은 활성화의 무거운 꼬리 (heavy tails) 를 해결할 수 없으므로, 활성화를 고 정밀도로 유지해야 하며, 이는 진정한 엔드 투 엔드 가속을 방지합니다. 이 한계를 극복하기 위해 우리는 BWLA (Binarized Weights and Low-bit Activations) 를 제안하며, 1 비트 가중치 양자화와 함께 저 비트 활성화 (예: 6 비트) 를 달성하면서 높은 정확도를 유지하는 첫 번째 포스트 트레이닝 양자화 프레임워크입니다. 직교 크로네커 변환 (Orthogonal-Kronecker Transformation, OKT) 은 EM 최소화 (EM minimization) 를 통해 직교 매핑을 학습하여, 단일 모달 가중치를 대칭 이분 모달 형식으로 변환하고 활성화의 꼬리와 불일치 (incoherence) 를 억제합니다. 근접 SVD 투영 (Proximal SVD Projection, PSP) 은 근접 SVD 투영을 통해 경량 저ランク 정교화를 수행하여 최소한의 오버헤드와 함께 양자화 가능성을 더욱 향상시킵니다. Qwen3-32B 에서 BWLA 는 6 비트 활성화 하에서 Wikitext2 perplexity 를 11.92 (SOTA 의 38 대) 로 달성하며, 5 가지 제로 샷 (zero-shot) 작업을 70% 이상 개선하고, 추론 속도 향상 3.26 배를 제공하여 실제 세계 LLM 압축 및 가속에 대한 강력한 잠재력을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

BWLA: LLMs의 W1AX 양자화 장벽 돌파

요약

핵심 포인트

댓글