ExLlamaV3 주요 업데이트!
요약
ExLlamaV3 프로젝트가 다양한 최신 LLM 모델들을 작고 빠른 환경에 효율적으로 배포하기 위해 지속적인 업데이트를 진행하고 있습니다. 최근에는 Gemma 4 지원, 캐싱 효율성 개선, 그리고 DFlash 지원을 통해 성능 향상을 이루었으며, 이를 통해 코드 생성 및 에이전트 작업 등에서 큰 폭의 속도 증가(최대 2.51배)를 보여주었습니다. 또한 다양한 모델에 대한 최적화와 양자화 업데이트가 꾸준히 이어지며 사용자 경험과 효율성을 높이고 있습니다.
핵심 포인트
- ExLlamaV3는 Gemma 4 지원, 캐싱 개선 등 지속적인 기능 추가를 통해 범용성을 확장하고 있습니다.
- DFlash 지원을 통해 LLM 추론 속도가 크게 향상되어 (최대 2.51배) 고성능의 효율적인 배포가 가능해졌습니다.
- 다양한 최신 모델(예: Qwen3.5-35B-A3B)에 대한 지속적인 최적화 및 양자화 업데이트가 이루어지고 있습니다.
- 개발팀은 꾸준히 성능 개선과 버그 수정을 진행하며 사용자들에게 높은 효율성을 제공하고 있습니다.
Turboderp가 더 작고 빠른 환경에 새로운 llama 모델들을 집어넣기 위한 끝없는 전투 속에서 최근 눈부신 발전을 보여주고 있습니다.
지난달에는 gemma 4 지원을 출시하며 시작했고, 이어서 향상된 캐싱 효율성로 이어졌습니다.
DFlash 지원은 2주 전에 출시되었으며, 다음과 같은 인상적인 결과를 보여줬습니다:
| Category | Baseline | N-gram/suffix | DFlash |
|---|---|---|---|
| Agentic, code | 55.98 t/s | 89.58 t/s (1.60x) | 140.61 t/s (2.51x) |
| ... |
지난주에는 추가 모델 최적화를 통해 다음과 같은 개선 사항을 가져왔습니다:
|Model|3090¹|4090¹|5090¹|6000 Pro¹|5090²|6000 Pro²|
|:-|:-|:-|:-|:-|:-:-
|Qwen3.5-35B-A3B 4.00bpw|5.3%|5.8%|8.6%|10.3%|21.0%|23.5%|
| ... |
지난 2일 동안에는 DFlash 모델 양자화와 기타 버그 수정 및 효율성 개선이 이루어졌으며, 개발(dev) 브랜치에서도 더 많은 작업이 진행되고 있습니다!
exllama discord에서 인사드리세요.
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기