본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 10. 11:17

SpenseGPT: LLM 추론을 위한 희소(Sparse) 및 밀집(Dense) GEMM을 가능하게 하는 실용적인 원샷 프루닝

요약

SpenseGPT는 LLM 추론 속도를 높이기 위해 희소(Sparse) 영역과 밀집(Dense) 영역을 결합한 하이브리드 형식을 제안합니다. 기존 2:4 희소성 제약으로 인한 정확도 저하를 해결하며, B200 GPU 환경에서 모델 품질을 유지하며 최대 1.2배의 디코딩 속도 향상을 달성했습니다.

핵심 포인트

  • 희소 및 밀집 영역을 나누는 하이브리드 Spense 형식 제안
  • 기존 컴파일러 지원 없이도 실용적인 원샷 사후 학습 프루닝 가능
  • B200 GPU에서 FP8 정밀도 기준 최대 1.2배 디코딩 속도 향상
  • Qwen3-32B 및 Seed-OSS-36B 모델을 통한 성능 입증

반구조적 (Semi-structured) 2:4 희소성 (Sparsity)은 현대 가속기에서 널리 지원되며, 이론적으로 최대 2배의 속도 향상을 제공합니다. 그러나 엄격한 50% 희소성 제약은 사후 학습 프루닝 (Post-training pruning) 시 무시할 수 없는 정확도 저하를 야기하는 경우가 많습니다. 한편, 기존의 완화된 희소성 형식들은 특수한 컴파일러 지원을 요구하거나, 엔드 투 엔드 (End-to-end) 속도 향상을 제한하는 런타임 오버헤드를 발생시킵니다. 우리는 각 가중치 행렬을 2:4 희소 영역 (Sparse region)과 밀집 영역 (Dense region)으로 나누는 실용적인 하이브리드 희소-밀집 형식을 제안하며, 이를 Spense라고 부릅니다. 이 설계는 기존의 고성능 희소 및 밀집 GEMM 라이브러리와 호환성을 유지하면서도 유효 희소성 제약을 완화하여, 커스텀 컴파일러 지원과 입력 활성화 (Input activation) 확장을 모두 피할 수 있습니다. 이 형식을 기반으로, 우리는 희소 및 밀집 영역을 생성하는 원샷 사후 학습 프루닝 방법인 SpenseGPT를 소개합니다. 특히, 적절한 밀집 영역을 선택하는 것이 중요하다는 점을 보여주며, 이를 선택하기 위한 두 가지 서로 다른 전략을 고안했습니다. Qwen3-32B 및 Seed-OSS-36B에 대한 실험 결과, 우리의 방법은 정확도를 유지하면서 FP8 정밀도를 사용하는 B200 GPU에서 최대 1.2배의 엔드 투 엔드 디코딩 (Decoding) 속도 향상을 달성함을 입증했습니다. 우리가 아는 바로는, 이는 B200과 같은 최신 GPU의 반구조적 희소 텐서 코어 (Semi-structured sparse tensor cores)를 활용하여 모델 품질을 유지하면서 실제 환경에서 엔드 투 엔드 LLM 디코딩 속도 향상을 보여준 최초의 원샷 프루닝 사례입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0