EinSort: LLM의 텐서화를 위해 필요한 것은 오직 정렬뿐이다
요약
EinSort는 인덱스 순서 지정을 통해 거대 모델의 저차원 구조를 식별하는 적응형 텐서화 방법을 제안합니다. 이를 통해 가중치와 KV-캐시를 효율적으로 압축하여 메모리 및 계산 비용을 절감할 수 있습니다.
핵심 포인트
- 인덱스 순서 지정을 통한 적응형 텐서화 방법론 제안
- 거대 모델의 비구조적 가중치 분포 내 저차원 구조 식별
- 가중치 및 KV-캐시 압축 시 재구성 품질 향상 입증
- 텐서 네트워크를 활용한 메모리 및 계산 비용 최적화
텐서 네트워크 (Tensor networks)는 거대 신경망을 압축하기 위한 효율적인 표현 방식을 제공합니다. 형태 (shapes)와 위상 (topologies)을 신중하게 설계함으로써, 메모리 및 계산 비용을 크게 줄일 수 있습니다. 그러나 거대 파운데이션 모델 (foundation models)의 경우, 그 엄청난 규모와 비구조적인 가중치 분포 (weight distributions)로 인해 내재된 저차원 구조 (low-rank structures)를 식별하는 것은 여전히 어려운 과제로 남아 있습니다. 본 논문에서는 인덱스 순서 지정 (index ordering)을 통해 대상 텐서 내의 고유한 저차원 구조를 발견하는 적응형 텐서화 (adaptive tensorization) 방법을 제안합니다. 가중치 (weight) 및 KV-캐시 (KV-cache) 압축에 대한 실험 결과, 베이스라인 (baselines) 대비 향상된 재구성 품질 (reconstruction quality)을 입증하였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기