Intel Arc Pro B70 (32GB) Dense 모델과 MoE 모델의 차이가 예상보다 훨씬 큽니다

로컬 추론(local inference)을 위해 B70을 사용해 왔는데, 동일한 카드에서 Dense 모델과 MoE 모델 간의 격차가 시작 전 예상했던 것보다 더 컸습니다.

Qwen3.6-27B (dense, Q4_K_M): 프롬프트 처리(prompt processing) ~27.8 tok/s, 생성(generation) ~24.4 tok/s, 약 30GB VRAM 사용.
Qwen3.6-35B-A3B (MoE, 동일 카드 및 백엔드): 수치상으로는 더 큰 모델임에도 불구하고, 프롬프트 처리 ~95.8 tok/s, 생성 ~98.3 tok/s.

Vulkan 백엔드가 저에게는 SYCL보다 더 안정적이고 빠른 경로였습니다 (주의: 저에게 작동하는 방식이 여러분에게도 100% 작동한다는 뜻은 아닙). SYCL은 제 테스트 결과(Windows 및 Linux 모두에서) 약 40% 더 느리게 측정되었습니다. 온도는 비슷한 RTX 카드보다 약간 더 높게 올라가지만, VRAM 제약이 있고 주로 MoE 모델을 실행한다면 이 가격에 32GB를 확보하는 것은 합리적인 절충안입니다.
submitted by /u/shyaaaaaaaaaaam
[link] [comments]

Insights

Intel Arc Pro B70 (32GB) Dense 모델과 MoE 모델의 차이가 예상보다 훨씬 큽니다

요약

핵심 포인트

댓글

SOTA LLM 로컬 배포, OpenAI 미세 조정 (Fine-tuning) 플랫폼, 그리고 Google A2UI 생성형 UI 표준

Alibaba의 Damo Academy AI 에이전트, 28시간 만에 4개의 새로운 초전도체 발견

AI Security Inst, 테스트 시간 연산(Test-Time Compute)이 프런티어 모델 평가를 왜곡한다고 밝혀

Adyen, 리더십 업데이트의 일환으로 임시 CFO 임명

Alibaba의 Damo Academy AI 에이전트, 28시간 만에 4개의 새로운 초전도체 발견

AI Security Inst, 테스트 시간 연산(Test-Time Compute)이 프런티어 모델 평가를 왜곡한다고 밝혀

Adyen, 리더십 업데이트의 일환으로 임시 CFO 임명