Llama.cpp는 MoE에 최적화되어 있지 않습니다

최적화 전 초당 13-25 토큰 vs 최적화 후 초당 31 토큰

참고로, 저는 llama.cpp와 NVIDIA-Nemotron-Labs-3-Elastic-12B-A2B.i1-IQ4_XS.gguf를 사용했습니다.
Qwen 35B도 확인해 볼 예정이지만, 이번 모델이 더 빨랐고 이를 통해 llama bench를 배우기가 더 쉬웠습니다.
어떤 태그가 모델을 더 빠르게 만드는지 알아내기 위해 llama bench를 사용했습니다. 저는 초보자라서 Claude와 ChatGPT(둘 다 무료 버전)를 사용하여 가이드를 받았습니다.

제 PC(1050ti 4gb - ryzen 2600 - 16 gb ram)에서는 -b와 ub 기본값이 적절했고, fa(Flash Attention)도 좋았습니다.
하지만 믿기지 않는 속도 향상은 -fitt에서 나왔습니다.
제 25 토큰이 32 토큰이 되었고, 270 pp(tokens per second/performance)를 기록했습니다.

저는 Claude에게 llama server에서 어떻게 동일한 속도를 재현할 수 있는지 물었습니다.
llama server에는 -fitt 옵션이 없습니다.
그래서 이미 --override-tensor exps=CPU를 시도해 보았으나, 25 t/s가 나왔고 제 VRAM을 모두 사용하지도 않았습니다.
-ncmoe를 시도했더니 13 토큰으로 떨어졌습니다.

그 후 Claude가 이렇게 말했습니다:
"방법은 이렇습니다: -v (verbose)와 -fitt 64 옵션을 사용하여 벤치마크를 실행하고, 로그 출력에서 resolve된 override-tensor 패턴을 찾으세요. 어떤 텐서 이름/버퍼 유형이 할당되었는지 출력될 것입니다."

한참 동안 방대한 텍스트를 들여다보며 Claude에게 도대체 어느 줄이 필요한지 물어본 끝에,
알고 보니 (overridden to CUDA_Host)가 포함된 줄들이었습니다.
예를 들면 다음과 같습니다:
tensor blk.20.ffn_gate_inp.weight (0 MiB f32) buffer type overridden to CUDA_Host

저는 이 모든 것을 복사해서 Claude에게 주었고, Claude는 fitt가 VRAM에 로드했던 부분들을 로드하는 llama server 명령어를 만들어 주었습니다. 그래서 --override-tensor exps=CPU를 사용했을 때의 1.6 gb 대신,
제 VRAM 사용량은 fitt가 했던 것처럼 3.7 gb까지 올라갔습니다.

그런데 다른 일도 일어났습니다. 벤치마크에서 테스트했던 270 pp 속도가 나온 것이 아니라,
무려 340이 나왔습니다.

다음은 Claude가 만든 명령어입니다:
-m "I:\Ai Models\NVIDIA-Nemotron-Labs-3-Elastic-12B-A2B.i1-IQ4_XS.gguf" ^
-ngl 999 ^
-fa on ^
--override-tensor "blk.20.(ffn_gate_inp|ffn_down_exps|ffn_down_shexp)=CPU,blk.(22|24|27|29|31|34|36|38|40|43|45|47|49|51).ffn_(up|down)_exps=CPU" ^
--ctx-size 64000 ^
--parallel 1 ^
--no-mmap ^
--mlock ^
--port 8080

Insights

Llama.cpp는 MoE에 최적화되어 있지 않습니다

요약

핵심 포인트

댓글

Angular 19에서 스트리밍 채팅 UI 구축하기 (2026)

Progress, 순레버리지(Net Leverage) 약 2.8배 목표 및 2026 회계연도 EPS $6.09-$6.21 전망

AI 에이전트는 자신도 모르는 사이에 무엇을 클라우드로 보내고 있는가

국세청 API로 인보이스 등록 번호를 '실재 확인'하는 MCP 서버를 만들었다

Progress, 순레버리지(Net Leverage) 약 2.8배 목표 및 2026 회계연도 EPS $6.09-$6.21 전망

AI 에이전트는 자신도 모르는 사이에 무엇을 클라우드로 보내고 있는가

국세청 API로 인보이스 등록 번호를 '실재 확인'하는 MCP 서버를 만들었다