arXiv논문2026. 05. 15. 16:23

대규모 언어 모델의 사후 학습 양자화(Post-Training Quantization)를 위한 하드웨어 인지적 레이어별 방법론

요약

이 기술 기사는 대규모 언어 모델(LLM)의 사후 학습 양자화(Post-Training Quantization, PTQ)를 위한 하드웨어 인지적 방법론인 Scaled Outer Product (SOP)을 소개합니다. SOP는 레이어별 LUT 디코딩이 가능한 하드웨어에서 가중치당 4.5~6비트 수준의 손실 없는 충실도를 제공하도록 설계되었습니다. 이 방법론은 코드북 탐색, 블록별 부호화 스케일링, 활성화 가중 코사인 선택 등을 결합하며, 새로운 하드웨어 효율적 LUT 출력 형식(HIF)을 통해 성능과 에너지 효율성을 개선합니다.

핵심 포인트

SOP는 LLM의 PTQ를 위한 방법론으로, 레이어별 LUT 디코딩이 가능한 하드웨어에 최적화되어 가중치당 4.5~6비트 수준의 높은 충실도를 제공한다.
핵심 기술 요소로는 블록별 선택 비트를 이용한 코드북 쌍 탐색, 활성화 가중 코사인 선택, 그리고 이상치 및 희소 잔차 보정 등이 결합된다.
새로운 하드웨어 효율적 LUT 출력 형식(HIF)이 제안되어 성능, 에너지, 비용 측면에서 개선을 가져온다.
SOP는 기존의 FP8 베이스라인 대비 낮은 저장 비용과 더 낮은 가중치 재구성 오차를 달성하며, 블록 스케일링된 작은 원자(block-scaled small atoms)가 대체 가능함을 입증했다.

Scaled Outer Product (SOP)는 레이어별 LUT 디코딩 (LUT decode)이 가능한 하드웨어에서 가중치당 4.56 비트 수준의 손실 없는 충실도를 제공하도록 설계된 대규모 언어 모델 (Large Language Model) 가중치용 사후 학습 양자화 (Post-Training Quantization) 방법론입니다. 이 방법론은 블록별 선택 비트 (per-block selection bit)에 의해 선택되는 고정 및 동적 코드북 (codebook) 쌍의 레이어별 탐색, 블록별 부호화된 스케일 (signed per-block scales), 활성화 가중 코사인 선택 (activation-weighted cosine selection), 그리고 이상치 (outlier) 및 희소 잔차 보정 (sparse-residual correction)을 포함한 민감한 레이어의 다중 선택 배낭 승격 (multiple-choice knapsack promotion)을 결합합니다. 고정 코드북에는 NF4, BOF4, Split87, SH4가 포함되며, 레이어별로 최적화된 코드북 (DD4)은 LUT SRAM에 저장됩니다. 성능, 에너지 및 비용을 개선하기 위해 새로운 하드웨어 효율적 LUT 출력 형식 (HIF)이 제안되었습니다. 6개의 오픈 모델 제품군 전반에 걸쳐, 권장되는 FP6 동작 지점 (E2M3sUE4M4, 6.5 bpw)은 기존의 레이어별 POT FP8 베이스라인 (E4M3, 8.0 bpw)보다 1.5 bpw 낮은 저장 비용으로 더 낮은 가중치 재구성 오차 (weight reconstruction error)를 달성하며, 신중하게 선택된 스케일 정밀도를 가진 블록 스케일링된 작은 원자 (block-scaled small atoms)가 기존에 배포된 FP8을 대체할 수 있음을 입증합니다. 레이어 승격 및 희소 잔차 보정을 포함하여 4.56 bpw 범위에 대한 전체 평가는 동반 논문에서 보고됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

대규모 언어 모델의 사후 학습 양자화(Post-Training Quantization)를 위한 하드웨어 인지적 레이어별 방법론

요약

핵심 포인트

댓글