HIP: gfx900에서 dense prefill을 위해 hipBLAS 사용, MoE를 위한 MMQ 유지
요약
AMD gfx900 아키텍처 GPU에서 dense prefill 성능을 높이기 위해 hipBLAS를 사용하고 MoE를 위한 MMQ를 유지하는 최적화 기술이 소개되었습니다. 이를 통해 Qwen 및 Gemma 모델에서 평균 약 40%의 성능 향상을 달성했습니다.
핵심 포인트
- gfx900 아키텍처(Vega 시리즈) 대상 GPU 전용 최적화
- hipBLAS 활용을 통한 dense prefill 성능 대폭 개선
- Gemma4 12B 모델에서 최대 65.1% 성능 향상 기록
- MoE 구조 유지를 위한 MMQ 기술 적용
전반적인 성능 향상:
Qwen3.5 4B: +36.1%
Qwen3.6 27B: +18.9%
Gemma4 12B: +65.1%
전체 평균: ~40%
gfx900 관련 GPU 전용:
Vega GPU, 코드명 vega10, Radeon Vega Frontier Edition, Radeon RX Vega 56/64, Radeon RX Vega 64 Liquid, Radeon Pro Vega 48/56/64/64X, Radeon Pro WX 8200/9100, Radeon Pro V320/V340/SSG, Radeon Instinct MI25 포함
이 정도의 오래된 아키텍처(architecture)와 카드치고는 정말 놀라운 수치입니다. 해당 카드 사용자들에게 매우 좋네요.
/u/pmttyji 제출
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기