본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 04. 19:05

BWLA: LLMs의 W1AX 양자화 장벽 돌파

요약

본 기술 기사는 대형 언어 모델(LLMs)의 메모리 및 컴퓨팅 요구사항 문제를 해결하기 위해 BWLA (Binarized Weights and Low-bit Activations)라는 새로운 양자화 프레임워크를 제안합니다. BWLA는 가중치를 1비트로 압축하는 동시에 활성화에 저비트 정밀도(예: 6비트)를 적용하여, 기존 방법들이 해결하지 못했던 활성화의 무거운 꼬리 문제를 극복하고 높은 정확도를 유지합니다. 이 프레임워크는 Qwen3-32B 모델에서 뛰어난 성능을 보여주었으며, 추론 속도 향상과 다양한 NLP 작업에서의 개선을 입증하며 LLM 경량화에 큰 잠재력을 제시합니다.

핵심 포인트

  • BWLA는 1비트 가중치와 저비트 활성화(예: 6비트)를 결합한 포스트 트레이닝 양자화 프레임워크이다.
  • 직교 크로네커 변환(OKT)을 사용하여 단일 모달 가중치를 대칭 이분 모달 형식으로 효율적으로 변환하고 불일치성을 줄인다.
  • 근접 SVD 투영(PSP)을 통해 최소한의 오버헤드로 양자화 가능성을 높여 성능과 경량화를 동시에 달성한다.
  • Qwen3-32B 모델에 적용 시, 6비트 활성화에서도 높은 정확도를 유지하며 추론 속도 향상 3.26배를 달성했다.

대형 언어 모델 (LLMs) 은 NLP 의 주요 발전이 있었지만, 여전히 막대한 메모리와 컴퓨팅 요구사항은 실제 배포를 방해합니다. 이진화 (Binarization) 는 가중치를 1 비트로 압축하여 컴퓨팅 비용과 대역폭 비용을 근본적으로 낮출 수 있습니다. 그러나 기존 방법들은 활성화의 무거운 꼬리 (heavy tails) 를 해결할 수 없으므로, 활성화를 고 정밀도로 유지해야 하며, 이는 진정한 엔드 투 엔드 가속을 방지합니다. 이 한계를 극복하기 위해 우리는 BWLA (Binarized Weights and Low-bit Activations) 를 제안하며, 1 비트 가중치 양자화와 함께 저 비트 활성화 (예: 6 비트) 를 달성하면서 높은 정확도를 유지하는 첫 번째 포스트 트레이닝 양자화 프레임워크입니다. 직교 크로네커 변환 (Orthogonal-Kronecker Transformation, OKT) 은 EM 최소화 (EM minimization) 를 통해 직교 매핑을 학습하여, 단일 모달 가중치를 대칭 이분 모달 형식으로 변환하고 활성화의 꼬리와 불일치 (incoherence) 를 억제합니다. 근접 SVD 투영 (Proximal SVD Projection, PSP) 은 근접 SVD 투영을 통해 경량 저ランク 정교화를 수행하여 최소한의 오버헤드와 함께 양자화 가능성을 더욱 향상시킵니다. Qwen3-32B 에서 BWLA 는 6 비트 활성화 하에서 Wikitext2 perplexity 를 11.92 (SOTA 의 38 대) 로 달성하며, 5 가지 제로 샷 (zero-shot) 작업을 70% 이상 개선하고, 추론 속도 향상 3.26 배를 제공하여 실제 세계 LLM 압축 및 가속에 대한 강력한 잠재력을 입증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0