본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 05. 23. 05:08

BeeLlama v0.2.0 – 주요 DFlash 업데이트. 단일 RTX 3090: Qwen 3.6 27B 최대 164 tps (4.40x)

요약

BeeLlama v0.2.0이 출시되어 DFlash 구현 최적화와 Gemma 4 31B 지원을 포함한 대규모 업데이트를 선보였습니다. RTX 3090 환경에서 Qwen 3.6 27B 모델을 사용 시 최대 164 tps의 압도적인 추론 속도를 달성했습니다.

핵심 포인트

  • DFlash 구현 최적화로 Qwen 3.6 27B 성능 대폭 향상
  • Gemma 4 31B 모델의 비전 기능 및 전체 지원
  • Drafter K/V 프로젝션 캐싱 및 CUDA 실행 안정성 강화
  • 추론 및 도구 호출(tool-call) 경계 강화 및 검증 로직 개선

BeeLlama v0.2.0이 출시되었습니다!

완전한 페가수스는 아니지만, 그에 충분히 가깝습니다.

GitHub | Qwen 3.6 27B 빠른 시작 (Quick Start) | Gemma 4 31B 빠른 시작 (Quick Start)

  • 효율적인 DFlash 구현 및 비전(vision) 기능을 포함한 전체 Gemma 4 31B 지원.
  • 낮은 DFlash 오버헤드(overhead), 더 깔끔한 프리필(prefill) 처리, Drafter K/V 프로젝션 캐싱(projection caching), 그리고 더 안전한 CUDA 실행을 통한 Qwen 3.6 27B 성능의 대대적인 업데이트.
  • 업스트림 아키텍처(upstream architecture)를 가진 DFlash GGUF 지원.
  • 베이스라인 프로빙(baseline probing) 주변의 적응형 이익(adaptive profit) 동작 수정.
  • 문법(grammar), 샘플러 상태(sampler state) 또는 추론(reasoning)이 필요한 경우 전체 로짓(logits)으로 더 안전하게 폴백(fallback)되도록 검증기(verifier) 경로를 더 엄격하게 축소.
  • 추론(reasoning) 및 도구 호출(tool-call) 경계 강화.
  • 더 엄격한 초안/대상(draft/target) 검증 및 더 나은 초안 모델(draft-model) 발견.
  • ...그리고 그 외 많은 개선 사항!

벤치마크 (Benchmarks)

  • 환경: Windows 11, AMD Ryzen 7 5700X3D, 32 GB DDR4 RAM, RTX 3090 24 GB
  • 설정: 빠른 시작(quick start) 문서와 동일하지만, 채팅용이 아닌 프롬프트의 경우 추론(reasoning)을 끔
  • 비교 대상 베이스라인 및 MTP 서버: llama.cpp b9275 CUDA 13.1 Windows 사전 빌드(prebuilt)
  • 벤치마크 프롬프트의 전체 텍스트는 GitHub의 README.md에 있습니다.

Qwen 3.6 27B

대상 모델: Qwen 3.6 27B Q5_K_S 또는 Qwen 3.6 27B MTP Q5_K_S. DFlash 모델: Q4_K_M.

프롬프트 (Prompt)서버 (Server)출력 (Output)중앙값 (Median)최고 (Best)가속 (Speedup)수락률 (Acceptance)
Task store moduleBaseline~1K tok37.2 tok/s37.2 tok/s1.00xN/A
...
수락률 (Acceptance): 제안된 초안 토큰 대비 수락된 토큰 / 최종 생성된 토큰 대비 수락된 초안 토큰

Gemma 4 31B

대상 모델 (Target model): Gemma 4 31B Q4_K_S. DFlash 모델 (DFlash model): Q5_K_M.

프롬프트 (Prompt)서버 (Server)출력 (Output)중앙값 (Median)최고 (Best)가속 (Speedup)수락률 (Acceptance)
Task store moduleBaseline~1K tok36.1 tok/s36.1 tok/s1.00xN/A
...
수락률 (Acceptance): 제안된 초안 토큰 대비 수락된 토큰 / 최종 생성된 토큰 대비 수락된 초안 토큰

AI 자동 생성 콘텐츠

본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0