Intel Arc Pro B70 (32GB) Dense 모델과 MoE 모델의 차이가 예상보다 훨씬 큽니다
요약
Intel Arc Pro B70(32GB) 환경에서 Dense 모델과 MoE 모델의 추론 성능 차이를 비교 분석했습니다. MoE 모델이 Dense 모델보다 훨씬 빠른 프롬프트 처리 및 생성 속도를 보여주었으며, Vulkan 백엔드가 SYCL보다 성능 면에서 우수함을 확인했습니다.
핵심 포인트
- Intel Arc Pro B70에서 MoE 모델이 Dense 모델 대비 압도적인 추론 속도 기록
- Qwen3.6-35B-A3B(MoE)가 Qwen3.6-27B(Dense)보다 약 4배 빠른 성능 발휘
- Vulkan 백엔드가 SYCL 백엔드보다 약 40% 더 빠른 성능을 보임
- 32GB VRAM 확보를 통한 MoE 모델 실행의 경제적 이점 강조
로컬 추론(local inference)을 위해 B70을 사용해 왔는데, 동일한 카드에서 Dense 모델과 MoE 모델 간의 격차가 시작 전 예상했던 것보다 더 컸습니다.
- Qwen3.6-27B (dense, Q4_K_M): 프롬프트 처리(prompt processing) ~27.8 tok/s, 생성(generation) ~24.4 tok/s, 약 30GB VRAM 사용.
- Qwen3.6-35B-A3B (MoE, 동일 카드 및 백엔드): 수치상으로는 더 큰 모델임에도 불구하고, 프롬프트 처리 ~95.8 tok/s, 생성 ~98.3 tok/s.
Vulkan 백엔드가 저에게는 SYCL보다 더 안정적이고 빠른 경로였습니다 (주의: 저에게 작동하는 방식이 여러분에게도 100% 작동한다는 뜻은 아닙). SYCL은 제 테스트 결과(Windows 및 Linux 모두에서) 약 40% 더 느리게 측정되었습니다. 온도는 비슷한 RTX 카드보다 약간 더 높게 올라가지만, VRAM 제약이 있고 주로 MoE 모델을 실행한다면 이 가격에 32GB를 확보하는 것은 합리적인 절충안입니다.
submitted by /u/shyaaaaaaaaaaam
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기