arXiv논문2026. 05. 06. 16:58

ELAS: 2:4 활성화 희소성을 통한 저랭크 대형 언어 모델의 효율적 사전 학습

요약

본 논문은 대규모 언어 모델(LLMs) 훈련의 높은 계산 비용 문제를 해결하기 위해 'ELAS'라는 새로운 프레임워크를 제안합니다. ELAS는 저랭크(low-rank) 모델에 2:4 구조적 활성화 희소성을 적용하여, 특히 푸드포워드 네트워크의 제곱 ReLU 활성화 과정에서 메모리 효율성과 계산 가속화를 동시에 달성하는 것이 핵심입니다. 실험 결과, ELAS는 LLaMA와 같은 대형 모델에서 성능 저하를 최소화하면서 훈련 및 추론 속도를 크게 향상시키는 것으로 나타났습니다.

핵심 포인트

ELAS는 LLM의 메모리 병목 현상을 해결하기 위한 새로운 접근 방식이다.
2:4 구조적 활성화 희소성을 적용하여 계산 효율성과 메모리 사용량을 최적화한다.
저랭크 모델에 이 기법을 적용함으로써, 기존 방법들이 놓치던 활성화 행렬의 메모리 오버헤드를 줄인다.
실험적으로 성능 저하를 최소화하면서 훈련 및 추론 가속화를 입증했다.

대형 언어 모델 (LLMs) 은 놀라운 능력을 달성했지만, 훈련 동안 막대한 계산 요구량이 광범위한 채택을 위한 중요한 병목 현상이 되었습니다. 최근 몇 년 동안 저랭크 (low-rank) 훈련은 훈련 메모리 사용량을 크게 줄일 수 있는 능력 때문에 주목을 받았습니다. 동시에 NVIDIA GPU 의 2:4 구조적 희소 형식 지원을 활용하기 위해 가중치와 활성화에 2:4 구조적 희소성을 적용하는 것은 유망한 방향이 되었습니다. 그러나 기존 저랭크 방법은 활성화 행렬을 풀랭크로 남기며, 이는 메모리 소비를 지배하고 대규모 배치 훈련 동안 트루풋을 제한합니다. 또한 가중치에 직접적으로 희소성을 적용하면 무시할 수 없는 성능 저하가 발생합니다. 대형 언어 모델의 효율적 사전 학습을 달성하기 위해 이 논문은 2:4 활성화 희소성을 통한 저랭크 LLM 의 효율적 사전 학습인 ELAS 를 제안합니다, 이는 저랭크 모델을 위한 2:4 활성화 희소성의 새로운 프레임워크입니다. ELAS 는 저랭크 모델의 푸드포워드 네트워크에 제곱 ReLU 활성화 함수를 적용하고 제곱 ReLU 연산 후 활성화에 대해 2:4 구조적 희소성을 구현합니다. 우리는 LLaMA 모델에서 60M 에서 1B 파라미터까지 범위의 사전 학습 실험을 통해 ELAS 를 평가했습니다. 결과는 2:4 활성화 희소성을 적용한 후 성능을 유지하면서 훈련 및 추론 가속화를 달성하며 최소한의 저하를 보인다는 것을 보여줍니다. 또한 ELAS 는 특히 큰 배치 크기와 함께 활성화 메모리 오버헤드를 줄입니다. 코드는 ELAS Repo 에서 이용 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

ELAS: 2:4 활성화 희소성을 통한 저랭크 대형 언어 모델의 효율적 사전 학습

요약

핵심 포인트

댓글