본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 12. 19:20

ConQuR: LLM을 위한 최적화된 회전을 이용한 코너 정렬 활성화 양자화

요약

본 논문은 LLM의 높은 메모리 사용량과 추론 비용 문제를 해결하기 위해 최적화된 회전을 활용한 코너 정렬 활성화 양자화를 제안합니다. 기존 방법들이 요구하던 값비싼 종단 간 훈련이나 대규모 오프라인 데이터 저장 없이도, 경량의 사후 훈련(post-training) 회전 보정화 기법을 통해 Llama 모델군에서 경쟁적이거나 향상된 성능을 달성할 수 있음을 입증했습니다.

핵심 포인트

  • LLM 배포 비용 절감을 위해 가중치-활성화 양자화가 필요하지만, 활성화 아웃라이어 문제로 저비트 활성화 양자화는 어려움이 존재함.
  • 기존 회전 기반 방법들은 종단 간 훈련이나 대규모 오프라인 데이터 저장 같은 오버헤드를 유발했음.
  • 제안된 '사후 훈련(post-training) 회전 보정화' 기법은 이러한 오버헤드 없이 활성화 양자화를 수행할 수 있게 함.
  • Llama-2 및 Llama-3 모델에 적용하여, 성능 저하 없이 비용 효율적인 양자화가 가능함을 입증함.

대규모 언어 모델(LLMs)은 큰 메모리 사용량과 높은 추론 비용 때문에 배포하는 데 비용이 많이 듭니다. 가중치-활성화 양자화는 이러한 비용을 줄일 수 있지만, 활성화 아웃라이어가 큰 양자화 오차를 유발하기 때문에 저비트 활성화 양자화는 여전히 어렵습니다. 최근 회전 기반 방법들은 직교 변환(orthogonal transformations)을 적용하여 활성화 크기를 차원 전반에 재분배함으로써 이를 해결합니다. 하지만 기존 접근 방식들은 값비싼 종단 간(end-to-end) 회전 훈련이 필요하거나, 저장된 활성화 코퍼스(activation corpora)에 의존하여 상당한 컴퓨팅 또는 스토리지 오버헤드를 초래합니다. 본 논문에서는 경량의 사후 훈련(post-training) 회전 보정화(rotation calibration)를 제안합니다.

Llama-2 및 Llama-3 모델(3B부터 70B 파라미터까지)에 대한 실험 결과, 저희 방법은 비용이 많이 드는 종단 간(end-to-end) 훈련과 대규모 오프라인 활성화 저장 없이도 퍼플렉서티(perplexity) 벤치마크와 상식 추론 작업 전반에서 경쟁적이거나 향상된 성능을 달성하는 것을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0