BeeLlama v0.3.1 – DFlash, MTP, q6_0 캐시, TurboQuant이 포함된 최신 llama.cpp! 단일 RTX - Insights | Molayo

BeeLlama v0.3.0 및 v0.3.1이 출시되었습니다! 포크(fork)를 업스트림(upstream) llama.cpp와 정렬하고 MTP 및 Gemma 4 12B 지원과 같은 모든 추가 기능을 통합하며, 멀티 슬롯(multi-slot) 및 멀티 GPU와 같은 복잡한 구성을 처리할 수 있도록 DFlash를 업데이트하는 대규모 아키텍처 업데이트가 이루어졌습니다. 이제 club-3090에서도 추천합니다! Bee를 클럽에 초대해주고 멀티 GPU 설정에서 v0.3.0 테스트를 도와준 noonghunna에게 감사드립니다.

완전한 페가수스는 아니지만, 그에 근접합니다.

GitHub | Qwen 3.6 27B 빠른 시작 | Gemma 4 31B 빠른 시작

훨씬 더 최신 버전의 llama.cpp 베이스로 업데이트되었습니다: MTP, Gemma 4 12B, VRAM 최적화, 통합 llama 앱, CUDA, Metal, Vulkan 등에 걸친 백엔드(backend) 개선 사항이 포함됩니다. 이제 모든 주요 플랫폼에 대해 사전 빌드된 바이너리(binaries)와 Docker 이미지가 제공됩니다.
DFlash는 이제 공유 드래프터 배치(shared drafter batching)를 통해 여러 개의 동시 슬롯(concurrent slots)에서 작동합니다.
적응형 초안 깊이(Adaptive draft depth)가 더 똑똑해졌습니다: 베이스라인(baselines)을 시딩(seeds)하고, 깊이를 탐색(probes)하며, 실패 시 후퇴(backs off)하고, 요청마다 리셋합니다.
많은 수정과 개선을 거쳐 멀티 GPU DFlash가 이제 작동합니다 (상당히 괜찮은 수준으로).
잘못된 상태에서 안전하게 실패하는 더 빠른 투기적 검증(speculative verification).
더 나은 도구 호출(tool-call) 및 추론(reasoning) 출력 처리: 더 빠른 스트리밍, 오래된 KV 상태(stale KV state) 삭제, 격리된 델타(isolated deltas).
새로운 캐시 및 양자화(quantization) 옵션: q6_0 KV 캐시, TQ3_1S 및 TQ4_1S 모델.
...그리고 훨씬 더 많은 개선 사항들이 있습니다!

벤치마크
이것들은 BeeLlama v0.2.0에서 실행되었으나, MTP가 5-10% 더 빨라진 것 외에는 두 엔진 모두 그 이후로 주요한 성능 업데이트가 없었습니다. club-3090은 v0.3.0을 사용하여 멀티 GPU 설정을 포함한 자체 벤치마크를 수행했으며, 최종적으로 Bee를 기본값으로 추천했습니다.

설정: Windows 11, AMD Ryzen 7 5700X3D, 32 GB DDR4 RAM, RTX 3090 24 GB
구성: 빠른 시작 문서와 동일하지만, 채팅이 아닌 프롬프트의 경우 추론(reasoning)을 끔
비교 대상 베이스라인 및 MTP 서버: llama.cpp b9275 CUDA 13.1 Windows 사전 빌드
벤치마크 프롬프트의 전체 텍스트는 GitHub의 README.md에 있습니다.

Qwen 3.6 27B
대상 모델: Qwen 3.6 27B Q5_K_S 또는 Qwen 3.6 27B MTP Q5_K_S. DFlash 모델: Q4_K_M.

Prompt Server 출력 | 중앙값 (Median) | 최고 속도 (Best Speedup) | 수용률 (Acceptance)

| 작업 저장 모듈 (Task store module) | Baseline | ~1K 토큰 | 37.2 토큰/초 | 37.2 토큰/초 | 1.00배 | N/A |
| 작업 저장 모듈 (Task store module) | DFlash | ~1K 토큰 | 163.9 토큰/초 | 181.9 토큰/초 | 4.40배 | 67.7% / 89.2% |
| 작업 저장 모듈 (Task store module) | MTP | ~1K 토큰 | 69.3 토큰/초 | 69.6 토큰/초 | 1.86배 | 92.0% / 73.3% |
| KV 보고서 모듈 (KV report module) | Baseline | ~1K 토큰 | 34.6 토큰/초 | 36.5 토큰/초 | 1.00배 | N/A |
| KV 보고서 모듈 (KV report module) | DFlash | ~1K 토큰 | 157.7 토큰/초 | 162.5 토큰/초 | 4.56배 | 58.8% / 88.9% |
| KV 보고서 모듈 (KV report module) | MTP | ~1K 토큰 | 67.3 토큰/초 | 68.1 토큰/초 | 1.94배 | 89.3% / 73.0% |
| 이중 연결 리스트 (Doubly-linked list) | Baseline | ~4K 토큰 | 36.8 토큰/초 | 36.9 토큰/초 | 1.00배 | N/A |
| 이중 연결 리스트 (Doubly-linked list) | DFlash | ~4K 토큰 | 130.8 토큰/초 | 154.1 토큰/초 | 3.56배 | 50.4% / 86.8% |
| 이중 연결 리스트 (Doubly-linked list) | MTP | ~4K 토큰 | 66.3 토큰/초 | 68.0 토큰/초 | 1.80배 | 87.8% / 72.5% |
| 프롬프트 처리 (Prompt processing) | Baseline | ~20K 토큰 | 1229.5 토큰/초 | 1229.5 토큰/초 | 1.00배 | N/A |
| 프롬프트 처리 (Prompt processing) | DFlash | ~20K 토큰 | 1214.4 토큰/초 | 1221.7 토큰/초 | 0.99배 | N/A |
| 프롬프트 처리 (Prompt processing) | MTP | ~20K 토큰 | 1162.6 토큰/초 | 1164.7 토큰/초 | 0.95배 | N/A |
| 다중 턴 코딩 (Multi-turn coding) | Baseline | ~28K 토큰 | 33.3 토큰/초 | 33.3 토큰/초 | 1.00배 | N/A |
| 다중 턴 코딩 (Multi-turn coding) | DFlash | ~30K 토큰 | 64.6 토큰/초 | 65.4 토큰/초 | 1.94배 | 24.9% / 72.9% |
| 다중 턴 코딩 (Multi-turn coding) | MTP | ~34K 토큰 | 56.5 토큰/초 | 56.5 토큰/초 | 1.70배 | 71.9% / 68.3% |

수용률 설명: 제안된 초안 토큰 수 대비 수용된 토큰 수 / 최종 생성된 토큰 대비 수용된 초안 토큰 수
Gemma 4 31B
대상 모델: Gemma 4 31B Q4_K_S. DFlash 모델: Q5_K_M.

Prompt Server 출력 | 중앙값 (Median) | 최고 속도 향상 (Best Speedup) | 수용률 (Acceptance)

| 작업 저장 모듈 (Task store module) | 기준선 (Baseline) | ~1K 토큰 | 36.1 토큰/초 | 36.1 토큰/초 | 1.00배 | N/A |
| 작업 저장 모듈 (Task store module) | DFlash | ~1K 토큰 | 177.8 토큰/초 | 182.0 토큰/초 | 4.93배 | 65.7% / 90.0% |
| KV 보고 모듈 (KV report module) | 기준선 (Baseline) | ~1K 토큰 | 35.9 토큰/초 | 36.0 토큰/초 | 1.00배 | N/A |
| KV 보고 모듈 (KV report module) | DFlash | ~1K 토큰 | 154.3 토큰/초 | 162.8 토큰/초 | 4.29배 | 55.7% / 88.6% |
| 이중 연결 리스트 (Doubly-linked list) | 기준선 (Baseline) | ~1.9K 토큰 | 36.0 토큰/초 | 36.0 토큰/초 | 1.00배 | N/A |
| 이중 연결 리스트 (Doubly-linked list) | DFlash | ~1.9K 토큰 | 116.6 토큰/초 | 127.3 토큰/초 | 3.24배 | 44.5% / 84.9% |
| 프롬프트 처리 (Prompt processing) | 기준선 (Baseline) | ~24K 토큰 | 1021.3 토큰/초 | 1021.3 토큰/초 | 1.00배 | N/A |
| 프롬프트 처리 (Prompt processing) | DFlash | ~24K 토큰 | 954.5 토큰/초 | 954.9 토큰/초 | 0.93배 | N/A |
| 다중 턴 코딩 (Multi-turn coding) | 기준선 (Baseline) | ~12K 토큰 | 34.8 토큰/초 | 34.8 토큰/초 | 1.00배 | N/A |
| 다중 턴 코딩 (Multi-turn coding) | DFlash | ~12K 토큰 | 60.6 토큰/초 | 64.1 토큰/초 | 1.74배 | 24.4% / 72.3% |

수용률: 제안된 초안 토큰 대비 수용된 초안 토큰 / 최종 생성 토큰에 대한 수용된 초안 토큰
제출자: u/Anbeeld | r/LocalLLaMA로 제출
[링크] [댓글]

BeeLlama v0.3.1 – DFlash, MTP, q6_0 캐시, TurboQuant이 포함된 최신 llama.cpp! 단일 RTX

요약

핵심 포인트

댓글