MTP와 TurboQuant를 사용하여 Qwen3.6-27B에서 262K 컨텍스트에 단일 RTX 4090으로 80+ t/s 달성

개인적인 용도로 MTP가 TBQ4_0 (TurboQuant의 손실 없는 4.25 bpv KV 캐시)과 함께 Qwen3.6-27B를 작동시키는 방법을 시도해 왔습니다.

그래서 하루 종일 코딩을 만지작거린 끝에, 뭔가 실현 가능한 것을 얻은 것 같습니다. 처음 컴파일했을 때 약 43 t/s였던 속도가 최적화 후에는 80~87 t/s로 올랐습니다. 게다가 MTP의 초안 수용률(draft acceptance)이 약 73%에 달합니다.