본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 05. 12. 09:39

ExLlamaV3 주요 업데이트!

요약

ExLlamaV3 프로젝트가 다양한 최신 LLM 모델들을 작고 빠른 환경에 효율적으로 배포하기 위해 지속적인 업데이트를 진행하고 있습니다. 최근에는 Gemma 4 지원, 캐싱 효율성 개선, 그리고 DFlash 지원을 통해 성능 향상을 이루었으며, 이를 통해 코드 생성 및 에이전트 작업 등에서 큰 폭의 속도 증가(최대 2.51배)를 보여주었습니다. 또한 다양한 모델에 대한 최적화와 양자화 업데이트가 꾸준히 이어지며 사용자 경험과 효율성을 높이고 있습니다.

핵심 포인트

  • ExLlamaV3는 Gemma 4 지원, 캐싱 개선 등 지속적인 기능 추가를 통해 범용성을 확장하고 있습니다.
  • DFlash 지원을 통해 LLM 추론 속도가 크게 향상되어 (최대 2.51배) 고성능의 효율적인 배포가 가능해졌습니다.
  • 다양한 최신 모델(예: Qwen3.5-35B-A3B)에 대한 지속적인 최적화 및 양자화 업데이트가 이루어지고 있습니다.
  • 개발팀은 꾸준히 성능 개선과 버그 수정을 진행하며 사용자들에게 높은 효율성을 제공하고 있습니다.

Turboderp가 더 작고 빠른 환경에 새로운 llama 모델들을 집어넣기 위한 끝없는 전투 속에서 최근 눈부신 발전을 보여주고 있습니다.

지난달에는 gemma 4 지원을 출시하며 시작했고, 이어서 향상된 캐싱 효율성로 이어졌습니다.

DFlash 지원은 2주 전에 출시되었으며, 다음과 같은 인상적인 결과를 보여줬습니다:

CategoryBaselineN-gram/suffixDFlash
Agentic, code55.98 t/s89.58 t/s (1.60x)140.61 t/s (2.51x)
...

지난주에는 추가 모델 최적화를 통해 다음과 같은 개선 사항을 가져왔습니다:

|Model|3090¹|4090¹|5090¹|6000 Pro¹|5090²|6000 Pro²|
|:-|:-|:-|:-|:-|:-:-
|Qwen3.5-35B-A3B 4.00bpw|5.3%|5.8%|8.6%|10.3%|21.0%|23.5%|
| ... |

지난 2일 동안에는 DFlash 모델 양자화와 기타 버그 수정 및 효율성 개선이 이루어졌으며, 개발(dev) 브랜치에서도 더 많은 작업이 진행되고 있습니다!

exllama discord에서 인사드리세요.

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0