로컬 SoTA 에이전틱 코딩 모델 Ornith 35B FP8 E4M3에 MTP를 추가했습니다

vLLM을 사용하여 Ornith 35B를 E4M3 기반 FP8 및 MTP와 함께 실행할 최적의 방법을 찾고 있었으나, MTP drafter를 지원하는 즉시 사용 가능한 모델이 없다는 점을 공유하고자 합니다. 그래서 이 새로운 모델을 이식(graft)했습니다! MTP를 사용하지 않을 때보다 18% 더 빠르며, drafter 수락률(acceptance rate)도 나쁘지 않습니다 (평균 70%).

이 모델은 256k의 전체 컨텍스트 윈도우(context window)를 갖춘 80GB VRAM 이상의 모든 RTX 기반 설정에서 실행될 수 있습니다. GB10과 같은 통합 메모리 시스템(Unified Memory Systems)에서도 잘 작동할 수 있습니다 (이 경우, 제 스크립트를 사용하여 MTP 모델을 대상 NVFP4 모델에 이식하세요!).

저는 Hopper 및 Ada 세대 하드웨어를 사용하므로, 저에게는 이것이 파레토 최적(Pareto optimal)입니다. 즐겁게 사용하세요!

이식(Grafter) 스크립트 및 vLLM 고성능 추론 컨테이너: https://github.com/kyr0/Ornith-35B-FP8-E4M3-MTP
submitted by /u/kyr0x0
[link] [comments]

Insights

로컬 SoTA 에이전틱 코딩 모델 Ornith 35B FP8 E4M3에 MTP를 추가했습니다

요약

핵심 포인트

댓글

AI(Whisper + GPT)를 사용하여 비용 부담 없이 오디오 전사 및 챕터 생성하기

Codex와 REST API를 활용한 AI SQL 검증 에이전트 구축하기

AI가 자동 생성한 커밋 메시지 200건을 분류했더니 규약 준수는 4할뿐이었다

AI 도구를 선택·설정·규칙 갖추기: 개인 거버넌스의 시작 방법【AI 안전 활용 가이드 #3】

Codex와 REST API를 활용한 AI SQL 검증 에이전트 구축하기

AI가 자동 생성한 커밋 메시지 200건을 분류했더니 규약 준수는 4할뿐이었다

AI 도구를 선택·설정·규칙 갖추기: 개인 거버넌스의 시작 방법【AI 안전 활용 가이드 #3】