본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 04. 30. 04:13

Qwen, FlashQLA 도입

요약

본 기술 기사는 TileLang 기반의 고성능 선형 주의력 커널인 FlashQLA를 소개합니다. 이 커널은 개인 장치용 에이전트 AI에 특화되어 있으며, 순방향 연산에서 2~3배, 역방향 연산에서 2배의 속도 향상을 제공합니다. 특히 자동 인트라-카드 CP와 하드웨어 친화적 재구성을 통해 SM 활용도를 높이고, 긴 컨텍스트 워크로드 및 엣지 장치 환경에서 뛰어난 성능을 보여줍니다.

핵심 포인트

  • FlashQLA는 TileLang 기반의 고성능 선형 주의력 커널이다.
  • 개인 장치용 에이전트 AI에 최적화되어 있으며, 순방향/역방향 연산 모두 속도 향상을 제공한다.
  • 자동 인트라-카드 CP와 하드웨어 친화적 재구성을 통해 SM 활용도를 극대화했다.
  • 긴 컨텍스트 및 엣지 장치 환경에서 높은 효율을 보이며, 역방향 전파 최적화를 통해 큰 성능 개선을 달성했다.

TileLang 기반 고성능 선형 주의력 커널인 FlashQLA를 소개합니다.

순방향 연산 2–3 배 속도 향상. 역방향 연산 2 배 속도 향상.

💻 개인 장치용 에이전트 AI (Agentic AI) 에 특화되어 있습니다.

핵심 통찰:

  1. 게이트 기반 자동 인트라-카드 CP (CP: Context Parallelism).

  2. 하드웨어 친화적 대수적 재구성.

  3. TileLang 퓨전 워프 전문화 커널.

FlashQLA 는 자동 인트라-장치 CP 를 통해 SM 활용도를 높입니다. 특히 TP (Tensor Parallelism) 설정, 작은 모델, 긴 컨텍스트 워크로드에서 그 효과가 두드러집니다.

전체 GDN (Gated Deep Network) 흐름을 단일 커널로 퓨싱하는 대신, CP 와 역방향 효율성을 위해 각각 최적화된 두 개의 커널로 분리했습니다. 큰 배치 크기의 경우 완전 퓨션 접근법 대비 추가적인 메모리 I/O 오버헤드가 발생하지만, 엣지 장치와 긴 컨텍스트 워크로드에서 더 나은 실제 성능을 제공합니다.

역방향 전파가 가장 어려운 부분이었으며, 매우 엄격한 온칩 메모리 제약 조건 하에 16 단계를 가진 워프 전문화 파이프라인을 구축하여 궁극적으로 커널 레벨 2 배 이상의 속도 향상을 달성했습니다.

이 내용이 커뮤니티에 도움이 되기를 바랍니다!

자세히 알아보기:

📖 블로그: https://qwen.ai/blog?id=flashqla

💻 코드: https://github.com/QwenLM/FlashQLA

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
13

댓글

0