arXiv논문2026. 05. 21. 11:53

Delta-Rule Linear Transformer를 위한 빠르고 안정적인 삼각 행렬 역행렬 계산 (Triangular Inversion)

요약

Delta-Rule Linear Transformer 모델의 핵심 연산인 삼각 행렬 역행렬 계산의 효율성과 수치적 안정성을 개선하는 연구를 다룹니다. 직접적 및 반복적 알고리즘을 체계적으로 분석하여 하드웨어 효율성을 극대화하는 방법론을 제시합니다. 실험 결과, NPU 환경에서 SGLang 대비 최대 4.3배의 속도 향상을 달성하며 모델 정확도를 유지함을 입증했습니다.

핵심 포인트

Delta-Rule 기반 선형 어텐션 모델에서 삼각 행렬 역행렬 계산은 성능 병목 및 수치적 오류의 주요 원인임
현대적 하드웨어 활용을 위해 행렬 곱 연산이 풍부한 알고리즘 설계가 중요함
저정밀도 부동 소수점 환경에서도 수치적 안정성을 유지하는 것이 모델 정확도 유지의 핵심임
NPU 벤치마크 결과, 기존 SGLang 구현 대비 최대 4.3배의 성능 향상을 기록함

선형 어텐션 (Linear attention)은 Qwen3.5/3.6, Kimi Linear, RWKV-7을 포함한 최첨단 오픈 소스 모델들에 통합된 사례에서 볼 수 있듯이, 효율적인 긴 문맥 (long-context) 아키텍처의 초석으로 부상했습니다. 이른바 델타 규칙 (Delta-Rule)이 적용된 선형 어텐션 레이어를 포함하는 모델들은 핵심 서브 루틴으로서 삼각 행렬 (triangular matrices)의 역행렬 계산 (inversion)을 포함합니다. 이 연산은 종종 성능 병목 현상을 형성하며, 수치적 오류 (numerical errors)에 대한 민감도가 높기 때문에 신중하게 구현되지 않을 경우 엔드투엔드 (end-to-end) 모델 정확도를 크게 저하시킬 수 있습니다. 본 연구는 행렬 곱 (matrix products)이 풍부하여 현대적 하드웨어를 효율적으로 활용할 잠재력이 있는 방법론들을 대상으로, 직접적 (direct) 및 반복적 (iterative) 삼각 행렬 역행렬 알고리즘에 대한 체계적인 분석을 제공합니다. 이를 위해 본 분석은 수치적 안정성 (numerical stability), 계산 복잡도 (computational complexity), 그리고 궁극적으로 하드웨어 효율성 및 실무적 고려 사항에 중점을 두어 광범위한 수학적 및 실무적 측면을 다룹니다. 우리는 실제 시나리오와 저정밀도 부동 소수점 (low-precision floating-point) 표현 방식에서 이러한 특성들을 검증하기 위해 엄격한 실험적 평가를 제공하며, 각 방법의 강점과 한계를 강조합니다. NPU에서의 성능 벤치마크 결과, 삼각 행렬 역행렬에 대해 SGLang의 최첨단 구현 대비 최대 $4.3 imes$의 속도 향상을 보여주었으며, 이는 전체 엔드투엔드 모델 정확도를 유지하면서도 레이어 전체 수준에서 상당한 성능 향상을 이끌어냈습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Delta-Rule Linear Transformer를 위한 빠르고 안정적인 삼각 행렬 역행렬 계산 (Triangular Inversion)

요약

핵심 포인트

댓글