본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 21. 10:58

PulseCol: 확산 언어 모델 (Diffusion Language Models) 가속을 위한 주기적 갱신형 컬럼 희소 어텐션

요약

PulseCol은 확산 대규모 언어 모델(dLLM)의 추론 비용을 절감하기 위해 제안된 주기적 갱신형 컬럼 희소 어텐션 기술입니다. 기존의 블록 단위 희소화 방식 대신 더 세밀한 컬럼 수준의 희소 구조를 사용하여, 모델의 품질을 유지하면서도 계산 효율성을 극대화합니다. 초기 단계에서 식별된 희소 패턴을 재사용하고 필요한 시점에만 갱신함으로써 FlashAttention 대비 최대 1.95배의 속도 향상을 달성했습니다.

핵심 포인트

  • dLLM의 반복적인 노이즈 제거 과정에서 발생하는 셀프 어텐션 계산 비용 문제를 해결
  • 블록 단위가 아닌 더 세밀한 컬럼 수준(column-level)의 희소화 전략 채택
  • 초기 단계의 희소 패턴을 후속 단계에서 재사용하고 소수의 중간 단계에서만 갱신하는 주기적 방식 적용
  • 최적화된 GPU 커널을 통해 다양한 컨텍스트 길이에서 실질적인 엔드 투 엔드 속도 향상 증명

확산 대규모 언어 모델 (diffusion large language models, dLLMs)의 추론은 KV 캐시(KV cache) 없이 노이즈 제거 (denoising) 과정의 각 단계마다 전체 셀프 어텐션 (self-attention)을 반복적으로 실행해야 하므로 계산 비용이 많이 듭니다. 최근 dLLM을 위한 희소 어텐션 (sparse attention) 방법들은 모델 성능이 거친 입도 (coarse-grained)의 희소 근사 (sparse approximation)에 덜 민감해지는 후기 반복 단계에서만 적용되는 블록 희소 계산 (block-sparse computation)을 통해 이 비용을 완화하지만, 계산 효율성과 가속 측면에서의 개선은 제한적입니다. 이는 초기 반복 단계부터 적용할 수 있고 재사용 가능한 희소 패턴 (sparsity patterns)을 활용하여 추가적인 효율성 이득을 얻을 수 있는 더 세밀한 입도 (finer-grained)의 희소화 전략에 대한 동기를 부여합니다. 본 연구에서는 확산 언어 모델을 가속화하기 위한 주기적 갱신형 컬럼 희소 어텐션 (periodically refreshed column-sparse attention) 방법인 PulseCol을 소개합니다. PulseCol은 거친 블록 수준의 희소성 (block-level sparsity)을 더 세밀한 입도의 컬럼 희소 구조 (column-sparse structure)로 대체하여, 더 큰 희소성을 노출하면서도 중요한 어텐션 상호작용을 더 정밀하게 유지할 수 있도록 합니다. 이 컬럼 수준의 공식화 (column-level formulation)를 기반으로, PulseCol은 초기 노이즈 제거 단계에서 희소 패턴을 식별하고 이를 후속 반복 단계 전반에 걸쳐 재사용하며, 노이즈 제거 과정 중 희소 어텐션 패턴의 진화를 추적하기 위해 소수의 중간 단계에서만 이를 갱신합니다. 실험 결과, PulseCol은 모델 품질을 유지하면서도 dLLM을 위한 기존 희소 어텐션 방법들보다 더 높은 희소성과 더 큰 실질적 속도 향상을 달성함을 보여줍니다. 컬럼 희소 어텐션을 위한 최적화된 GPU 커널 (GPU kernels)을 통해, PulseCol은 여러 컨텍스트 길이 (context lengths)에 걸쳐 FlashAttention 대비 최대 1.95$ imes$의 엔드 투 엔드 (end-to-end) 속도 향상을 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0