r/LocalLLaMA분석2026. 05. 07. 17:58

llama.cpp PR #22673 를 이용한 Strix Halo MTP 성능 평가

요약

본 기사는 llama.cpp의 PR #22673을 활용하여 Strix Halo MTP(Matrix Transfer Pattern) 기능을 AI Max 395 시스템에 적용한 성능 평가 결과를 다룹니다. MTP 기능 활성화 결과, 토큰 생성 속도가 기존 약 40 토크/초에서 60~80 토크/초로 크게 향상되는 것을 확인했습니다 (Vulkan 환경에서는 40~50 토크/초 수준). 이 테스트는 AI 가속기 성능 최적화에 있어 MTP 기능의 중요성을 보여줍니다.

핵심 포인트

llama.cpp PR #22673을 통해 Strix Halo MTP 기능을 성공적으로 적용함.
MTP 활성화 전후, 토큰 생성 속도가 40 토크/초에서 최대 80 토크/초까지 향상되는 성능 개선이 관찰됨.
성능 테스트는 AI Max 395 (128GB DDR5 8000MHz) 시스템을 기반으로 진행되었으며, 특정 데이터 유형(수학 문제 등)에 따라 최적의 성능을 보임.
MTP 기능은 모델 크기(Qwen 3.6-35BA3B)와 관계없이 큰 폭의 속도 향상을 가져올 수 있는 중요한 최적화 요소임.

llama.cpp 에서 곧 지원될 MTP (Matrix Transfer Pattern) 기능에 대한 포스트를 보았기에, AI Max 395(128GB DDR5 8000MHz) 에 적용해 보았습니다.

https://github.com/kyuz0/amd-strix-halo-toolboxes 에서 제공된 radv 컨테이너를 https://github.com/ggml-org/llama.cpp/pull/22673 PR 을 적용하여 재구성했습니다.

GGUF 파일: https://huggingface.co/am17an/Qwen3.6-35BA3B-MTP-GGUF/tree/main 를 실행하고, --spec-type mtp --spec-draft-n-max 3 옵션을 추가했습니다.

결과: MTP 적용 전 약 40 토크/초에서, MTP 적용 후 60~~80 토크/초로 향상되었습니다 (화면에서는 ROCM 을 시도했으나, 실제 성능은 Vulkan 에서 40~~50 토크/초 수준). 주어진 데이터에 따라 차이가 발생하며(일반적인 수학 문제일 때 가장 빠름), PP 는 변경되지 않았습니다. 캡처된 두 GGUF 파일의 크기는 거의 동일: 각각 약 36GB

아직 Qwen 3.5 122B 에는 시도하지 않았으나, 런치 파라미터 조정 등 일부 수정이 필요할 것으로 예상됩니다. 정말 인상적입니다!

AI 자동 생성 콘텐츠

원문 바로가기

llama.cpp PR #22673 를 이용한 Strix Halo MTP 성능 평가

요약

핵심 포인트

댓글