PulseCol: 확산 언어 모델 (Diffusion Language Models) 가속을 위한 주기적 갱신형 컬럼 희소 어텐션

확산 대규모 언어 모델 (diffusion large language models, dLLMs)의 추론은 KV 캐시(KV cache) 없이 노이즈 제거 (denoising) 과정의 각 단계마다 전체 셀프 어텐션 (self-attention)을 반복적으로 실행해야 하므로 계산 비용이 많이 듭니다. 최근 dLLM을 위한 희소 어텐션 (sparse attention) 방법들은 모델 성능이 거친 입도 (coarse-grained)의 희소 근사 (sparse approximation)에 덜 민감해지는 후기 반복 단계에서만 적용되는 블록 희소 계산 (block-sparse computation)을 통해 이 비용을 완화하지만, 계산 효율성과 가속 측면에서의 개선은 제한적입니다. 이는 초기 반복 단계부터 적용할 수 있고 재사용 가능한 희소 패턴 (sparsity patterns)을 활용하여 추가적인 효율성 이득을 얻을 수 있는 더 세밀한 입도 (finer-grained)의 희소화 전략에 대한 동기를 부여합니다. 본 연구에서는 확산 언어 모델을 가속화하기 위한 주기적 갱신형 컬럼 희소 어텐션 (periodically refreshed column-sparse attention) 방법인 PulseCol을 소개합니다. PulseCol은 거친 블록 수준의 희소성 (block-level sparsity)을 더 세밀한 입도의 컬럼 희소 구조 (column-sparse structure)로 대체하여, 더 큰 희소성을 노출하면서도 중요한 어텐션 상호작용을 더 정밀하게 유지할 수 있도록 합니다. 이 컬럼 수준의 공식화 (column-level formulation)를 기반으로, PulseCol은 초기 노이즈 제거 단계에서 희소 패턴을 식별하고 이를 후속 반복 단계 전반에 걸쳐 재사용하며, 노이즈 제거 과정 중 희소 어텐션 패턴의 진화를 추적하기 위해 소수의 중간 단계에서만 이를 갱신합니다. 실험 결과, PulseCol은 모델 품질을 유지하면서도 dLLM을 위한 기존 희소 어텐션 방법들보다 더 높은 희소성과 더 큰 실질적 속도 향상을 달성함을 보여줍니다. 컬럼 희소 어텐션을 위한 최적화된 GPU 커널 (GPU kernels)을 통해, PulseCol은 여러 컨텍스트 길이 (context lengths)에 걸쳐 FlashAttention 대비 최대 1.95$ imes$의 엔드 투 엔드 (end-to-end) 속도 향상을 제공합니다.

Insights

PulseCol: 확산 언어 모델 (Diffusion Language Models) 가속을 위한 주기적 갱신형 컬럼 희소 어텐션

요약

핵심 포인트

댓글

엔비디아 다음 세대 AI 서버는 GPU를 사는 게 아니라 점점 HBM 덩어리를 사는 것에 가까워진다.

프론트엔드를 선택 사항으로 만든 GitHub 저장소

OmniDesk v2.3.1: 이제 휴대폰에서도 Claude 코드를 실제로 구동할 수 있게 되었습니다

로컬 AI의 또 다른 대성공

엔비디아 다음 세대 AI 서버는 GPU를 사는 게 아니라 점점 HBM 덩어리를 사는 것에 가까워진다.

프론트엔드를 선택 사항으로 만든 GitHub 저장소

OmniDesk v2.3.1: 이제 휴대폰에서도 Claude 코드를 실제로 구동할 수 있게 되었습니다

로컬 AI의 또 다른 대성공