본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 05. 03. 08:30

Luce DFlash: 단일 RTX 3090 에서 Qwen3.6-27B 의 처리 속도를 최대 2 배 향상

요약

Luce DFlash는 GGUF 포트로 구현된 추상적 디코딩(speculative decoding) 엔진으로, 단일 RTX 3090과 같은 소비자급 GPU에서도 대규모 언어 모델(LLM)의 처리 속도를 크게 향상시킵니다. 이 기술은 Qwen3.6-27B와 같은 모델을 호스팅하며, 재학습 없이도 평균적으로 최대 2배에 가까운 추론 속도 향상을 달성했습니다. 핵심 기능으로는 TQ3_0 압축 KV 캐시를 사용하여 24GB 메모리 내에서 256K 컨텍스트 처리를 가능하게 하고, 슬라이딩 윈도우 플래시 어텐션을 적용하여 긴 컨텍스트에서도 높은 디코딩 속도를 유지하는 것이 있습니다. 이 엔진은 vLLM이나 SGLang 같은 복잡한 프레임워크 없이 독립적인 C++/CUDA 스택으로 작동합니다.

핵심 포인트

  • 단일 RTX 3090에서 Qwen3.6-27B의 추론 속도를 최대 2배 향상시키는 DFlash 엔진을 개발했습니다.
  • GGUF 포트를 기반으로 하며, 별도의 Python 런타임이나 llama.cpp 설치 없이 독립적인 C++/CUDA 스택으로 작동합니다.
  • KV 캐시를 TQ3_0 (9.7배 압축)으로 압축하고 슬라이딩 윈도우 플래시 어텐션을 적용하여 24GB 메모리 내에서 256K 컨텍스트 처리가 가능합니다.
  • 프롬프트가 길어질 경우 ubatch 크기를 자동으로 증가시키고, 긴 컨텍스트에서도 높은 디코딩 속도를 유지하는 최적화 기능을 제공합니다.
  • 성능 측정은 실제 소비자 하드웨어(RTX 3090)에서 이루어졌으며, 평균적으로 1.98배의 속도 향상을 기록했습니다.

안녕하세요, Llamas 여러분. 여러분의 시간은 소중하므로 간략히 말씀드리겠습니다.

우리는 DFlash 추상적 디코딩 (speculative decoding) 의 GGUF 포트를 개발했습니다. ggml 위에 독립적인 C++/CUDA 스택을 구축하여 단일 24 GB RTX 3090 에서 실행되며, 새로운 Qwen3.6-27B 모델을 호스팅합니다.

우리는 이를 Luce DFlash (https://github.com/Luce-Org/lucebox-hub; MIT) 라고 부릅니다.

HumanEval / GSM8K / Math500 에서 Qwen3.6 의 자동 회귀 (autoregressive) 대비 약 1.98 배의 평균 속도를 기록했습니다. 재학습 없이 달성되었습니다 (z-lab 는 2026-04-26 에 매칭된 Qwen3.6-DFlash 초안을 게시했으나 여전히 훈련 중이므로 AL 은 계속 상승할 것입니다).

CUDA 12+ 와 NVIDIA GPU (RTX 3090 / 4090 / 5090, DGX Spark, 기타 Blackwell, 또는 CUDA 13+ 의 Jetson AGX Thor) 를 보유하신다면 다음만 필요합니다.

저장소를 클론한 후 (첫 번째 댓글에 링크 있음):

cd lucebox-hub/dflash

cmake -B build -S . -DCMAKE_BUILD_TYPE=Release

cmake --build build --target test_dflash -j

타겟 모델 다운로드 (~16 GB)

huggingface-cli download unsloth/Qwen3.6-27B-GGUF Qwen3.6-27B-Q4_K_M.gguf --local-dir models/

매칭된 3.6 초안 (draft) 은 게이트 처리됨: 약관 동의 후 HF_TOKEN 설정

huggingface-cli download z-lab/Qwen3.6-27B-DFlash --local-dir models/draft/

실행

DFLASH_TARGET=models/Qwen3.6-27B-Q4_K_M.gguf python3 scripts/run.py --prompt "def fibonacci(n):"

이것만이면 됩니다. 엔진에는 Python 런타임이 없고, llama.cpp 설치도 필요 없으며, vLLM 이나 SGLang 도 없습니다. 바이너리는 libggml*.a 를 링크하며 libllama 는 절대 링크하지 않습니다.

Luce DFlash 는

  • Qwen3.6-27B Q4_K_M 타겟 가중치 (~16 GB) 와 매칭된 DFlash bf16 초안 (~3.46 GB) 을 로드하고, 블록 크기 16, 기본 예산 22, 탐욕적 (greedy) 검증 모드의 DDTree 트리-검증 추상적 디코딩을 실행합니다.
  • KV 캐시를 TQ3_0 (3.5 bpv, F16 대비 약 9.7 배 압축) 으로 압축하고 4096 슬롯의 target_feat 링을 회전시켜 256K 컨텍스트를 24 GB 안에 맞춥니다. Q4_0 은 레거시 경로이며 최대 컨텍스트 길이는 약 128K 에 그칩니다.
  • 프롬프트가 2048 토큰을 초과할 경우 프리필 (prefill) ubatch 를 16 에서 자동으로 192 로 증가시킵니다 (13K 프롬프트에서 약 913 tok/s 의 프리필 속도).
  • 디코딩 시 슬라이딩 윈도우 플래시 어텐션 (sliding-window flash attention) 을 적용하여 (기본 2048 토큰 윈도우, 100% 추상적 수용률 유지) 60K 컨텍스트에서도 25.8 tok/s 가 아닌 89.7 tok/s 로 디코딩합니다.
  • OpenAI 호환 HTTP 엔드포인트 또는 로컬 채팅 REPL 을 통해 서비스를 제공합니다.

RTX 3090 에서 실행, Qwen3.6-27B UD-Q4_K_XL (unsloth Dynamic 2.0) 타겟, 10 프롬프트/데이터셋, n_gen=256:

Bench AR tok/s DFlash tok/s AL Speedup

HumanEval 34.90 78.16 5.94 2.24x

Math500 35.13 69.77 5.15 1.99x

GSM8K 34.89 59.65 4.43 1.71x

Mean 34.97 69.19 5.17 1.98x

보시다시피, 이 속도 향상은 소비자 하드웨어에서 실제로 달성된 것이며, 논문의 숫자가 아닙니다. 타겟 그래프는 AR 모드와 비트 동일 (bit-identical) 한 출력을 생성하며, 초안 그래프는 z-lab PyTorch 참조 모델과 cos sim 0.999812 로 매칭됩니다. Q4_0 KV 비용은 짧은 컨텍스트 (8.56 에서 8.33) 에서 약 3% AL 에 해당하지만, F16 이 들어가지 않는 긴 컨텍스트에서는 우위를 점합니다.

제약 사항: CUDA 만 지원, 탐욕적 검증만 지원 (OpenAI 서버의 온도/top_p 는 허용되지만 무시됨), M

AI 자동 생성 콘텐츠

본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
6

댓글

0