본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 05. 17. 20:20

Qwen3.6에서 llama.cpp MTP 지원 테스트 - RTX 5090

요약

본 테스트는 RTX 5090 환경에서 llama.cpp를 사용하여 Qwen3.6 모델의 MTP(Multi-Turn Prompting) 기능을 검증한 내용입니다. 특히, 동일한 GGUF 파일을 사용하면서 `--spec-type draft-mtp` 플래그만 변경하여 MTP 기능 자체에 대한 영향을 분석했습니다. 테스트는 짧은 스토리와 긴 코드 생성 등 다양한 길이의 프롬프트를 사용하여 모델의 일관성과 성능을 측정했습니다.

핵심 포인트

  • RTX 5090 환경에서 llama.cpp를 이용한 Qwen3.6 모델 MTP 지원 테스트가 수행됨.
  • MTP 기능 검증 시, 양자화(quantization) 차이를 배제하기 위해 동일 GGUF 파일에 플래그만 변경하여 비교함.
  • 테스트는 짧은 텍스트 생성(~400 tokens)과 긴 코드 생성(~3000 tokens) 등 다양한 길이의 프롬프트를 포함하여 모델 성능을 다각도로 검증함.

설정:

- RTX 5090, 32 GB, Linux

- 4f13cb7 커밋에서 llama.cpp 빌드 (작성 시점 기준으로 공식 ghcr.io/ggml-org/llama.cpp:server-cuda 이미지에 아직 머지(merge)가 반영되지 않아, CUDA_DOCKER_ARCH=120 옵션과 함께 소스에서 직접 docker build를 수행해야 했음)

- Unsloth의 Qwen3.6-27B-MTP-GGUF Q5_K_M 및 Qwen3.6-35B-A3B-MTP-GGUF UD-Q4_K_M

- 128k 컨텍스트 (context), flash-attn, q8_0 KV 캐시 (KV cache), temp 0.8, --parallel 1 (MTP를 위해 필수)

- "MTP 켬"과 "MTP 끔"에 동일한 GGUF 사용 — 오직 --spec-type draft-mtp --spec-draft-n-max 3 플래그(flag)만 전환함. 이를 통해 양자화 (quantization) 차이로부터 MTP를 격리함.

- 2개의 프롬프트 (prompt): "고양이에 대한 짧은 이야기" (~400 tokens) 및 "단일 HTML 파일로 된 Flappy Bird 클론" (~3000 tokens)

- 설정당 3개의 시드 (seed) 사용, 평균값 산출

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0