본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 08. 10:33

SigmaScale: SVD 기반 저계수 분해(Low-Rank Decomposition) 및 학습된 스케일링 행렬을 이용한 LLM 압축

요약

SigmaScale은 SVD 기반의 LLM 압축을 위해 보조 스케일링 행렬을 학습하는 새로운 방법론을 제안합니다. 활성화 인지 손실 함수를 통해 가중치 행렬의 유효 내재적 계수를 낮춤으로써, Llama 3.1 및 Qwen 모델에서 SOTA 수준의 압축 성능을 입증했습니다.

핵심 포인트

  • SVD 기반 압축을 위한 학습 가능한 스케일링 행렬 도입
  • 활성화 인지 압축 손실을 통한 최적화 수행
  • 가중치 행렬의 유효 내재적 계수 감소 확인
  • Llama 3.1 및 Qwen 모델에서 SOTA급 성능 입증
  • LLM 추론 비용 절감을 위한 유연한 압축 경로 제공

우리는 절단된 특이값 분해 (SVD, Singular Value Decomposition) 기반의 거대 언어 모델 (LLM, Large Language Model) 압축을 돕기 위해 보조 스케일링 행렬 $S$를 학습하는 방법론인 SigmaScale을 제시합니다. SigmaScale은 스케일링 행렬을 분석적으로 도출하는 대신, 활성화 인지 압축 손실 (activation-aware compression loss) 하에서 대각 행 및 열 스케일링 변환을 정의하는 두 세트의 벡터를 최적화합니다. 우리는 학습된 스케일링이 유효 계수 엔트로피 (effective-rank entropy)의 감소로 나타나듯이 가중치 행렬의 유효 내재적 계수 (effective intrinsic rank)를 낮춘다는 것을 보여주며, 이러한 감소가 압축 손실과 강력한 상관관계가 있음을 입증합니다. Llama 3.1 8B Instruct 및 Qwen3-8B에 대한 실험 결과, SigmaScale은 퍼플렉시티 (perplexity) 및 제로샷 (zero-shot) 벤치마크 전반에서 매우 밀접하게 관련된 최첨단 (SOTA, state-of-the-art) SVD 기반 압축 방법들과 경쟁할 만한 성능을 보여줍니다. 학습된 활성화 인지 변환을 사용함으로써, SigmaScale은 개별 모델 가중치의 구조에 적응하여 저계수 (low-rank) LLM 압축을 위한 더욱 유연한 경로를 탐색합니다. 특정 작업에서 관찰된 이러한 이점은 우리의 접근 방식이 LLM 추론 컴퓨팅 비용 절감이 필요한 애플리케이션에 유효한 선택지가 될 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0