로컬 SoTA 에이전틱 코딩 모델 Ornith 35B FP8 E4M3에 MTP를 추가했습니다
요약
Ornith 35B 모델에 MTP(Multi-Token Prediction)를 이식하여 vLLM 환경에서 추론 속도를 18% 향상시킨 기술을 소개합니다. FP8 양자화와 256k 컨텍스트 윈도우를 지원하여 고성능 에이전틱 코딩 환경을 구축할 수 있습니다.
핵심 포인트
- MTP 적용 시 미사용 대비 추론 속도 18% 향상
- Drafter 수락률 평균 70% 달성
- 256k 컨텍스트 윈도우 및 FP8(E4M3) 지원
- 80GB 이상의 VRAM 또는 통합 메모리 시스템에서 실행 가능
vLLM을 사용하여 Ornith 35B를 E4M3 기반 FP8 및 MTP와 함께 실행할 최적의 방법을 찾고 있었으나, MTP drafter를 지원하는 즉시 사용 가능한 모델이 없다는 점을 공유하고자 합니다. 그래서 이 새로운 모델을 이식(graft)했습니다! MTP를 사용하지 않을 때보다 18% 더 빠르며, drafter 수락률(acceptance rate)도 나쁘지 않습니다 (평균 70%).
이 모델은 256k의 전체 컨텍스트 윈도우(context window)를 갖춘 80GB VRAM 이상의 모든 RTX 기반 설정에서 실행될 수 있습니다. GB10과 같은 통합 메모리 시스템(Unified Memory Systems)에서도 잘 작동할 수 있습니다 (이 경우, 제 스크립트를 사용하여 MTP 모델을 대상 NVFP4 모델에 이식하세요!).
저는 Hopper 및 Ada 세대 하드웨어를 사용하므로, 저에게는 이것이 파레토 최적(Pareto optimal)입니다. 즐겁게 사용하세요!
이식(Grafter) 스크립트 및 vLLM 고성능 추론 컨테이너: https://github.com/kyr0/Ornith-35B-FP8-E4M3-MTP
submitted by /u/kyr0x0
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기