r/LocalLLaMA분석2026. 05. 17. 20:20

Qwen3.6에서 llama.cpp MTP 지원 테스트 - RTX 5090

요약

본 테스트는 RTX 5090 환경에서 llama.cpp를 사용하여 Qwen3.6 모델의 MTP(Multi-Turn Prompting) 기능을 검증한 내용입니다. 특히, 동일한 GGUF 파일을 사용하면서 `--spec-type draft-mtp` 플래그만 변경하여 MTP 기능 자체에 대한 영향을 분석했습니다. 테스트는 짧은 스토리와 긴 코드 생성 등 다양한 길이의 프롬프트를 사용하여 모델의 일관성과 성능을 측정했습니다.

핵심 포인트

RTX 5090 환경에서 llama.cpp를 이용한 Qwen3.6 모델 MTP 지원 테스트가 수행됨.
MTP 기능 검증 시, 양자화(quantization) 차이를 배제하기 위해 동일 GGUF 파일에 플래그만 변경하여 비교함.
테스트는 짧은 텍스트 생성(~400 tokens)과 긴 코드 생성(~3000 tokens) 등 다양한 길이의 프롬프트를 포함하여 모델 성능을 다각도로 검증함.

설정:

- RTX 5090, 32 GB, Linux

- 4f13cb7 커밋에서 llama.cpp 빌드 (작성 시점 기준으로 공식 ghcr.io/ggml-org/llama.cpp:server-cuda 이미지에 아직 머지(merge)가 반영되지 않아, CUDA_DOCKER_ARCH=120 옵션과 함께 소스에서 직접 docker build를 수행해야 했음)

- Unsloth의 Qwen3.6-27B-MTP-GGUF Q5_K_M 및 Qwen3.6-35B-A3B-MTP-GGUF UD-Q4_K_M

- 128k 컨텍스트 (context), flash-attn, q8_0 KV 캐시 (KV cache), temp 0.8, --parallel 1 (MTP를 위해 필수)

- "MTP 켬"과 "MTP 끔"에 동일한 GGUF 사용 — 오직 --spec-type draft-mtp --spec-draft-n-max 3 플래그(flag)만 전환함. 이를 통해 양자화 (quantization) 차이로부터 MTP를 격리함.

- 2개의 프롬프트 (prompt): "고양이에 대한 짧은 이야기" (~400 tokens) 및 "단일 HTML 파일로 된 Flappy Bird 클론" (~3000 tokens)

- 설정당 3개의 시드 (seed) 사용, 평균값 산출

AI 자동 생성 콘텐츠

원문 바로가기

Qwen3.6에서 llama.cpp MTP 지원 테스트 - RTX 5090

요약

핵심 포인트

댓글