arXiv논문2026. 05. 12. 19:20

ConQuR: LLM을 위한 최적화된 회전을 이용한 코너 정렬 활성화 양자화

요약

본 논문은 LLM의 높은 메모리 사용량과 추론 비용 문제를 해결하기 위해 최적화된 회전을 활용한 코너 정렬 활성화 양자화를 제안합니다. 기존 방법들이 요구하던 값비싼 종단 간 훈련이나 대규모 오프라인 데이터 저장 없이도, 경량의 사후 훈련(post-training) 회전 보정화 기법을 통해 Llama 모델군에서 경쟁적이거나 향상된 성능을 달성할 수 있음을 입증했습니다.

핵심 포인트

LLM 배포 비용 절감을 위해 가중치-활성화 양자화가 필요하지만, 활성화 아웃라이어 문제로 저비트 활성화 양자화는 어려움이 존재함.
기존 회전 기반 방법들은 종단 간 훈련이나 대규모 오프라인 데이터 저장 같은 오버헤드를 유발했음.
제안된 '사후 훈련(post-training) 회전 보정화' 기법은 이러한 오버헤드 없이 활성화 양자화를 수행할 수 있게 함.
Llama-2 및 Llama-3 모델에 적용하여, 성능 저하 없이 비용 효율적인 양자화가 가능함을 입증함.

대규모 언어 모델(LLMs)은 큰 메모리 사용량과 높은 추론 비용 때문에 배포하는 데 비용이 많이 듭니다. 가중치-활성화 양자화는 이러한 비용을 줄일 수 있지만, 활성화 아웃라이어가 큰 양자화 오차를 유발하기 때문에 저비트 활성화 양자화는 여전히 어렵습니다. 최근 회전 기반 방법들은 직교 변환(orthogonal transformations)을 적용하여 활성화 크기를 차원 전반에 재분배함으로써 이를 해결합니다. 하지만 기존 접근 방식들은 값비싼 종단 간(end-to-end) 회전 훈련이 필요하거나, 저장된 활성화 코퍼스(activation corpora)에 의존하여 상당한 컴퓨팅 또는 스토리지 오버헤드를 초래합니다. 본 논문에서는 경량의 사후 훈련(post-training) 회전 보정화(rotation calibration)를 제안합니다.

Llama-2 및 Llama-3 모델(3B부터 70B 파라미터까지)에 대한 실험 결과, 저희 방법은 비용이 많이 드는 종단 간(end-to-end) 훈련과 대규모 오프라인 활성화 저장 없이도 퍼플렉서티(perplexity) 벤치마크와 상식 추론 작업 전반에서 경쟁적이거나 향상된 성능을 달성하는 것을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

ConQuR: LLM을 위한 최적화된 회전을 이용한 코너 정렬 활성화 양자화

요약

핵심 포인트

댓글