BeeLlama v0.2.0 – 주요 DFlash 업데이트. 단일 RTX 3090: Qwen 3.6 27B 최대 164 tps (4.40x)
요약
BeeLlama v0.2.0이 출시되어 DFlash 구현 최적화와 Gemma 4 31B 지원을 포함한 대규모 업데이트를 선보였습니다. RTX 3090 환경에서 Qwen 3.6 27B 모델을 사용 시 최대 164 tps의 압도적인 추론 속도를 달성했습니다.
핵심 포인트
- DFlash 구현 최적화로 Qwen 3.6 27B 성능 대폭 향상
- Gemma 4 31B 모델의 비전 기능 및 전체 지원
- Drafter K/V 프로젝션 캐싱 및 CUDA 실행 안정성 강화
- 추론 및 도구 호출(tool-call) 경계 강화 및 검증 로직 개선
BeeLlama v0.2.0이 출시되었습니다!
완전한 페가수스는 아니지만, 그에 충분히 가깝습니다.
GitHub | Qwen 3.6 27B 빠른 시작 (Quick Start) | Gemma 4 31B 빠른 시작 (Quick Start)
- 효율적인 DFlash 구현 및 비전(vision) 기능을 포함한 전체 Gemma 4 31B 지원.
- 낮은 DFlash 오버헤드(overhead), 더 깔끔한 프리필(prefill) 처리, Drafter K/V 프로젝션 캐싱(projection caching), 그리고 더 안전한 CUDA 실행을 통한 Qwen 3.6 27B 성능의 대대적인 업데이트.
- 업스트림 아키텍처(upstream architecture)를 가진 DFlash GGUF 지원.
- 베이스라인 프로빙(baseline probing) 주변의 적응형 이익(adaptive profit) 동작 수정.
- 문법(grammar), 샘플러 상태(sampler state) 또는 추론(reasoning)이 필요한 경우 전체 로짓(logits)으로 더 안전하게 폴백(fallback)되도록 검증기(verifier) 경로를 더 엄격하게 축소.
- 추론(reasoning) 및 도구 호출(tool-call) 경계 강화.
- 더 엄격한 초안/대상(draft/target) 검증 및 더 나은 초안 모델(draft-model) 발견.
- ...그리고 그 외 많은 개선 사항!
벤치마크 (Benchmarks)
- 환경: Windows 11, AMD Ryzen 7 5700X3D, 32 GB DDR4 RAM, RTX 3090 24 GB
- 설정: 빠른 시작(quick start) 문서와 동일하지만, 채팅용이 아닌 프롬프트의 경우 추론(reasoning)을 끔
- 비교 대상 베이스라인 및 MTP 서버: llama.cpp b9275 CUDA 13.1 Windows 사전 빌드(prebuilt)
- 벤치마크 프롬프트의 전체 텍스트는 GitHub의 README.md에 있습니다.
Qwen 3.6 27B
대상 모델: Qwen 3.6 27B Q5_K_S 또는 Qwen 3.6 27B MTP Q5_K_S. DFlash 모델: Q4_K_M.
| 프롬프트 (Prompt) | 서버 (Server) | 출력 (Output) | 중앙값 (Median) | 최고 (Best) | 가속 (Speedup) | 수락률 (Acceptance) |
|---|---|---|---|---|---|---|
| Task store module | Baseline | ~1K tok | 37.2 tok/s | 37.2 tok/s | 1.00x | N/A |
| ... | ||||||
| 수락률 (Acceptance): 제안된 초안 토큰 대비 수락된 토큰 / 최종 생성된 토큰 대비 수락된 초안 토큰 |
Gemma 4 31B
대상 모델 (Target model): Gemma 4 31B Q4_K_S. DFlash 모델 (DFlash model): Q5_K_M.
| 프롬프트 (Prompt) | 서버 (Server) | 출력 (Output) | 중앙값 (Median) | 최고 (Best) | 가속 (Speedup) | 수락률 (Acceptance) |
|---|---|---|---|---|---|---|
| Task store module | Baseline | ~1K tok | 36.1 tok/s | 36.1 tok/s | 1.00x | N/A |
| ... | ||||||
| 수락률 (Acceptance): 제안된 초안 토큰 대비 수락된 토큰 / 최종 생성된 토큰 대비 수락된 초안 토큰 |
AI 자동 생성 콘텐츠
본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기