Qwen 3.6 35b (새로운 Multi-token Prediction 버전) 테스트를 위해 세 번의 별도 세션에서 100만 개 이상의
요약
본 글은 Qwen 3.6 35B (MTP 버전) 모델을 사용하여 대규모 컨텍스트(Context Window) 환경에서의 성능 테스트 결과를 공유합니다. 특히, 여러 파일과 방대한 코드를 포함하는 프로젝트를 다루면서도 높은 속도와 완벽한 품질을 유지하는 것을 목표로 했습니다. 테스트 결과, 300k 컨텍스트에서도 오류 없이 매우 빠른 처리 속도를 보여주었으며, 이는 로컬 LLM 분야의 큰 진전을 의미한다고 강조합니다.
핵심 포인트
- Qwen 3.6 35B (MTP 버전) 모델은 대규모 컨텍스트(Context Window) 환경에서 뛰어난 성능을 보였습니다.
- 테스트는 여러 파일과 방대한 코드를 포함하는 다중 파일 프로젝트를 대상으로 진행되었습니다.
- 모델의 속도는 매우 빨라 '날아다니는 수준'이며, 175k 컨텍스트까지 오류가 없었습니다.
- 이 테스트는 로컬 LLM 환경에서 모델의 최대 처리 가능 컨텍스트와 속도를 측정하는 데 중점을 두었습니다.
제 생각에 MTP (Multi-token Prediction) 모델은 로컬 LLM (Local LLM) 분야의 100% 게임 체인저입니다.
속도 측면에서, 이전 테스트보다 약 1.5배 빠른 tok/sec (초당 토큰 수)를 기록했습니다.
이번 프로젝트는 테스트 목적이었습니다 - 단계별로 반복되는 전체 pygame 게임, 즉 작은 미스터리 던전 스타일의 게임을 만드는 것이었습니다. 처음에는 100k-200k 컨텍스트 (Context)를 설정했다가 300k까지 높였습니다. 이것은 KV Q8_0 양자화 (Quant) 기준입니다. 수정: 제가 틀렸습니다, 실수로 q4_0로 설정해 두었습니다. 내일 Q8로 테스트를 다시 하겠습니다.
저는 VSCodium과 Roo를 사용합니다. 아이디어는 컨텍스트 윈도우 (Context Window)를 어디까지 밀어붙일 수 있는지 확인하고, 다중 파일 프로젝트가 포함된 큰 컨텍스트 윈도우가 효과를 저해할 정도로 속도를 너무 느리게 만드는지 (체감상) 측정하는 것이었습니다.
사용된 모델: Qwen3.6-35B-A3B-UD-Q5_K_S (MTP 버전) - 링크
OS/소프트웨어: Ubuntu 24.04 - Vulkan - MTP를 사용하기 위해 llama.cpp 서버의 MTP 프로토타입 도커 (Docker) 버전을 사용해야 했습니다 (이미지: havenoammo/llama:vulkan-server)
현재 제 윈도우는 300k 컨텍스트이지만, 사용 중인 VRAM (비디오 램)이 28.3gb / 32gb이므로 더 높일 수 있을 것 같습니다. 아마 400k도 가능할 것입니다 (35B MoE 모델 기준).
GPU: Asus Radeon R9700 AI Pro 카드 (32gb RDNA 4 카드)
로컬 LLM 커뮤니티와 우리가 집에서 이런 강력한 모델들을 실행할 수 있게 해준 모든 분께 감사의 마음을 전하고 싶습니다. 불과 1년 전의 상황을 생각하면 정말 놀랍습니다. 이 모든 기술을 탐구하는 것이 매우 즐거우며, 매일 새로운 것을 배울 때마다 그저 경이로울 뿐입니다.
수정: 컨텍스트 세션이 깊어질 때 (약 200k 지점) MoE 모델에서 문제를 겪었기 때문에 Qwen 3.6 27b 모델 (non-MoE)로 전환했습니다. 결과를 업데이트하겠습니다. Q8_0 양자화로 전환한 후에는 문제가 없었습니다 - 다시 MoE 모델로 전환할 예정입니다 (아래 스레드에 더 자세한 내용을 게시했습니다).
새로운 테스트 - 5월 15일:
-
Q8_0 양자화 유지 - 300k 컨텍스트에서 Qwen3.6-35B-A3B-UD-Q5_K_S (MTP 버전)로 전환 (VRAM 30/32gb 사용)
-
제 프로젝트의 여러 .py 파일(다수의 파일, 방대한 코드, 디자인 .MD 문서 등)을 수정하고 있는데, 정말 날아다니는 수준입니다. 품질은 100% 완벽하며, 지금까지 175k 컨텍스트(context)에서 오류가 전혀 없었습니다. 추후 업데이트하겠습니다.
-
저는 이 모델의 속도가 너무 좋아서 다시 돌아왔습니다. 지난번에는 194k 컨텍스트 근처에서 충돌이 발생했는데, 알고 보니 KV 캐시(KV cache)에 Q_0 양자화(quants)를 사용하고 있었다는 사실을 인지하지 못했습니다. 27B dense 모델이 더 나을 수도 있겠지만, Codium과 Roo에서 엄청나게 빠르기 때문에 이 MTP 모델을 계속 사용하고 싶습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기