Reddit요약2026. 05. 03. 08:30

Luce DFlash: 단일 RTX 3090 에서 Qwen3.6-27B 의 처리 속도를 최대 2 배 향상

요약

Luce DFlash는 GGUF 포트로 구현된 추상적 디코딩(speculative decoding) 엔진으로, 단일 RTX 3090과 같은 소비자급 GPU에서도 대규모 언어 모델(LLM)의 처리 속도를 크게 향상시킵니다. 이 기술은 Qwen3.6-27B와 같은 모델을 호스팅하며, 재학습 없이도 평균적으로 최대 2배에 가까운 추론 속도 향상을 달성했습니다. 핵심 기능으로는 TQ3_0 압축 KV 캐시를 사용하여 24GB 메모리 내에서 256K 컨텍스트 처리를 가능하게 하고, 슬라이딩 윈도우 플래시 어텐션을 적용하여 긴 컨텍스트에서도 높은 디코딩 속도를 유지하는 것이 있습니다. 이 엔진은 vLLM이나 SGLang 같은 복잡한 프레임워크 없이 독립적인 C++/CUDA 스택으로 작동합니다.

핵심 포인트

단일 RTX 3090에서 Qwen3.6-27B의 추론 속도를 최대 2배 향상시키는 DFlash 엔진을 개발했습니다.
GGUF 포트를 기반으로 하며, 별도의 Python 런타임이나 llama.cpp 설치 없이 독립적인 C++/CUDA 스택으로 작동합니다.
KV 캐시를 TQ3_0 (9.7배 압축)으로 압축하고 슬라이딩 윈도우 플래시 어텐션을 적용하여 24GB 메모리 내에서 256K 컨텍스트 처리가 가능합니다.
프롬프트가 길어질 경우 ubatch 크기를 자동으로 증가시키고, 긴 컨텍스트에서도 높은 디코딩 속도를 유지하는 최적화 기능을 제공합니다.
성능 측정은 실제 소비자 하드웨어(RTX 3090)에서 이루어졌으며, 평균적으로 1.98배의 속도 향상을 기록했습니다.

안녕하세요, Llamas 여러분. 여러분의 시간은 소중하므로 간략히 말씀드리겠습니다.

우리는 DFlash 추상적 디코딩 (speculative decoding) 의 GGUF 포트를 개발했습니다. ggml 위에 독립적인 C++/CUDA 스택을 구축하여 단일 24 GB RTX 3090 에서 실행되며, 새로운 Qwen3.6-27B 모델을 호스팅합니다.

우리는 이를 Luce DFlash (https://github.com/Luce-Org/lucebox-hub; MIT) 라고 부릅니다.

HumanEval / GSM8K / Math500 에서 Qwen3.6 의 자동 회귀 (autoregressive) 대비 약 1.98 배의 평균 속도를 기록했습니다. 재학습 없이 달성되었습니다 (z-lab 는 2026-04-26 에 매칭된 Qwen3.6-DFlash 초안을 게시했으나 여전히 훈련 중이므로 AL 은 계속 상승할 것입니다).

CUDA 12+ 와 NVIDIA GPU (RTX 3090 / 4090 / 5090, DGX Spark, 기타 Blackwell, 또는 CUDA 13+ 의 Jetson AGX Thor) 를 보유하신다면 다음만 필요합니다.

저장소를 클론한 후 (첫 번째 댓글에 링크 있음):

cd lucebox-hub/dflash

cmake -B build -S . -DCMAKE_BUILD_TYPE=Release

cmake --build build --target test_dflash -j

타겟 모델 다운로드 (~16 GB)

huggingface-cli download unsloth/Qwen3.6-27B-GGUF Qwen3.6-27B-Q4_K_M.gguf --local-dir models/

매칭된 3.6 초안 (draft) 은 게이트 처리됨: 약관 동의 후 HF_TOKEN 설정

huggingface-cli download z-lab/Qwen3.6-27B-DFlash --local-dir models/draft/

실행

DFLASH_TARGET=models/Qwen3.6-27B-Q4_K_M.gguf python3 scripts/run.py --prompt "def fibonacci(n):"

이것만이면 됩니다. 엔진에는 Python 런타임이 없고, llama.cpp 설치도 필요 없으며, vLLM 이나 SGLang 도 없습니다. 바이너리는 libggml*.a 를 링크하며 libllama 는 절대 링크하지 않습니다.

Luce DFlash 는

Qwen3.6-27B Q4_K_M 타겟 가중치 (~16 GB) 와 매칭된 DFlash bf16 초안 (~3.46 GB) 을 로드하고, 블록 크기 16, 기본 예산 22, 탐욕적 (greedy) 검증 모드의 DDTree 트리-검증 추상적 디코딩을 실행합니다.
KV 캐시를 TQ3_0 (3.5 bpv, F16 대비 약 9.7 배 압축) 으로 압축하고 4096 슬롯의 target_feat 링을 회전시켜 256K 컨텍스트를 24 GB 안에 맞춥니다. Q4_0 은 레거시 경로이며 최대 컨텍스트 길이는 약 128K 에 그칩니다.
프롬프트가 2048 토큰을 초과할 경우 프리필 (prefill) ubatch 를 16 에서 자동으로 192 로 증가시킵니다 (13K 프롬프트에서 약 913 tok/s 의 프리필 속도).
디코딩 시 슬라이딩 윈도우 플래시 어텐션 (sliding-window flash attention) 을 적용하여 (기본 2048 토큰 윈도우, 100% 추상적 수용률 유지) 60K 컨텍스트에서도 25.8 tok/s 가 아닌 89.7 tok/s 로 디코딩합니다.
OpenAI 호환 HTTP 엔드포인트 또는 로컬 채팅 REPL 을 통해 서비스를 제공합니다.

RTX 3090 에서 실행, Qwen3.6-27B UD-Q4_K_XL (unsloth Dynamic 2.0) 타겟, 10 프롬프트/데이터셋, n_gen=256:

Bench AR tok/s DFlash tok/s AL Speedup

HumanEval 34.90 78.16 5.94 2.24x

Math500 35.13 69.77 5.15 1.99x

GSM8K 34.89 59.65 4.43 1.71x

Mean 34.97 69.19 5.17 1.98x

보시다시피, 이 속도 향상은 소비자 하드웨어에서 실제로 달성된 것이며, 논문의 숫자가 아닙니다. 타겟 그래프는 AR 모드와 비트 동일 (bit-identical) 한 출력을 생성하며, 초안 그래프는 z-lab PyTorch 참조 모델과 cos sim 0.999812 로 매칭됩니다. Q4_0 KV 비용은 짧은 컨텍스트 (8.56 에서 8.33) 에서 약 3% AL 에 해당하지만, F16 이 들어가지 않는 긴 컨텍스트에서는 우위를 점합니다.

제약 사항: CUDA 만 지원, 탐욕적 검증만 지원 (OpenAI 서버의 온도/top_p 는 허용되지만 무시됨), M

AI 자동 생성 콘텐츠

원문 바로가기