친구들, Qwen 팀이 또다시 조용히 아주 강력한 한 수를 뒀습니다. FlashQLA라는 새로운 linear attention 커널을

요약

Qwen 팀이 FlashQLA라는 새로운 오픈소스 선형 어텐션 커널을 공개했습니다. 이 기술은 모델의 순전파(Forward pass)에서 2~3배, 역전파(Backward pass)에서 2배의 속도 향상을 제공합니다. 특히 개인 장치에서의 에이전트 AI 구동에 최적화되어 있으며, 게이트 기반 자동 카드 내 CP와 하드웨어 친화적인 대수학적 구조를 특징으로 합니다.

핵심 포인트

FlashQLA는 Qwen 팀이 개발한 새로운 오픈소스 선형 어텐션 커널입니다.
주요 성능 개선점은 순전파(Forward pass)에서 2~3배, 역전파(Backward pass)에서 2배의 속도 향상입니다.
개인 장치 환경에서의 에이전트 AI 구동에 최적화되어 있습니다.
기술적으로 게이트 기반 자동 카드 내 CP와 하드웨어 친화적인 대수학적 구조를 활용합니다.

친구들, Qwen 팀이 또다시 조용히 아주 강력한 한 수를 뒀습니다. FlashQLA라는 새로운 linear attention 커널을 오픈소스로 공개했습니다.🫪

이 기술로 얻은 성과가 정말 인상적입니다: • Forward pass에서 2-3배 속도 향상
• Backward pass에서 2배 속도 향상
• 특히 작은 모델과 긴

Introducing FlashQLA: high-performance linear attention kernels built on TileLang. 2–3× forward speedup. 2× backward speedup. Purpose-built for agentic AI on your personal devices. Key insights:

Gate-driven automatic intra-card CP.
Hardware-friendly algebraic

AI 자동 생성 콘텐츠

원문 바로가기

친구들, Qwen 팀이 또다시 조용히 아주 강력한 한 수를 뒀습니다. FlashQLA라는 새로운 linear attention 커널을

요약

핵심 포인트

댓글