Reddit요약2026. 05. 23. 05:08

BeeLlama v0.2.0 – 주요 DFlash 업데이트. 단일 RTX 3090: Qwen 3.6 27B 최대 164 tps (4.40x)

요약

BeeLlama v0.2.0이 출시되어 DFlash 구현 최적화와 Gemma 4 31B 지원을 포함한 대규모 업데이트를 선보였습니다. RTX 3090 환경에서 Qwen 3.6 27B 모델을 사용 시 최대 164 tps의 압도적인 추론 속도를 달성했습니다.

BeeLlama v0.2.0이 출시되었습니다!

완전한 페가수스는 아니지만, 그에 충분히 가깝습니다.

GitHub | Qwen 3.6 27B 빠른 시작 (Quick Start) | Gemma 4 31B 빠른 시작 (Quick Start)

효율적인 DFlash 구현 및 비전(vision) 기능을 포함한 전체 Gemma 4 31B 지원.
낮은 DFlash 오버헤드(overhead), 더 깔끔한 프리필(prefill) 처리, Drafter K/V 프로젝션 캐싱(projection caching), 그리고 더 안전한 CUDA 실행을 통한 Qwen 3.6 27B 성능의 대대적인 업데이트.
업스트림 아키텍처(upstream architecture)를 가진 DFlash GGUF 지원.
베이스라인 프로빙(baseline probing) 주변의 적응형 이익(adaptive profit) 동작 수정.
문법(grammar), 샘플러 상태(sampler state) 또는 추론(reasoning)이 필요한 경우 전체 로짓(logits)으로 더 안전하게 폴백(fallback)되도록 검증기(verifier) 경로를 더 엄격하게 축소.
추론(reasoning) 및 도구 호출(tool-call) 경계 강화.
더 엄격한 초안/대상(draft/target) 검증 및 더 나은 초안 모델(draft-model) 발견.
...그리고 그 외 많은 개선 사항!

벤치마크 (Benchmarks)

Qwen 3.6 27B

프롬프트 (Prompt)	서버 (Server)	출력 (Output)	중앙값 (Median)	최고 (Best)	가속 (Speedup)	수락률 (Acceptance)
Task store module	Baseline	~1K tok	37.2 tok/s	37.2 tok/s	1.00x	N/A
...
수락률 (Acceptance): 제안된 초안 토큰 대비 수락된 토큰 / 최종 생성된 토큰 대비 수락된 초안 토큰

Gemma 4 31B

대상 모델 (Target model): Gemma 4 31B Q4_K_S. DFlash 모델 (DFlash model): Q5_K_M.

프롬프트 (Prompt)	서버 (Server)	출력 (Output)	중앙값 (Median)	최고 (Best)	가속 (Speedup)	수락률 (Acceptance)
Task store module	Baseline	~1K tok	36.1 tok/s	36.1 tok/s	1.00x	N/A
...
수락률 (Acceptance): 제안된 초안 토큰 대비 수락된 토큰 / 최종 생성된 토큰 대비 수락된 초안 토큰

AI 자동 생성 콘텐츠