Mimo 2.5는 대규모 컨텍스트에서 매우 빠릅니다 (dual RTX Pro 6000)
요약
대규모 컨텍스트 작업에서 Mimo 2.5와 Step 3.7 Flash 모델이 슬라이딩 윈도우 어텐션 기술을 통해 높은 속도를 유지함을 분석합니다. RTX PRO 6000 환경에서 로컬 모델의 성능과 최신 GPU 커널 최적화 이슈를 다룹니다.
핵심 포인트
- Mimo 2.5는 슬라이딩 윈도우 어텐션을 사용하여 대규모 컨텍스트에서도 빠른 속도 유지
- MiniMax M3와 DeepSeek V4는 특정 GPU 커널 의존성으로 인해 로컬 환경에서 속도 저하 발생
- Step 3.7 Flash는 하이브리드 어텐션 방식을 통해 높은 컨텍스트 성능 제공
- 로컬 모델(Mimo 2.5 등)이 코딩 품질 면에서 Sonnet 수준에 도달함
에이전트 중심의 작업(agentic work)에서는 빠른 속도와 높은 컨텍스트(high context)가 핵심입니다. OpenCode는 창을 빠르게 채우지만, 8k 컨텍스트에서는 빠릿하게 느껴지던 대부분의 모델들이 150k 컨텍스트 깊이에 도달하면 마치 다이얼업 ADSL처럼 느려져 버립니다. 그래서 저는 2x RTX PRO 6000에서 "로컬 Sonnet"을 구현하기 위해 많은 모델과 러너(runner)들을 테스트해 왔습니다 (스포일러: 가능합니다!).
성능 저하는 각 모델이 어텐션(attention)을 어떻게 처리하느냐에 달려 있습니다. Mimo 2.5가 이 카드들에서 빠른 속도를 유지하는 이유는 Gemma 3가 사용하는 것과 동일한 5대 1 로컬/글로벌 슬라이딩 윈도우 어텐션(sliding-window attention)을 사용하기 때문입니다. 대부분의 레이어는 최근 토큰만 바라보는 반면, 일부는 여전히 전체 컨텍스트를 읽기 때문에 맥락을 놓치지 않으면서도 빠른 속도를 유지합니다.
MiniMax M3와 DeepSeek V4는 아직 "소비자용" Blackwell을 위해 아무도 작성하지 않은 커스텀 GPU 커널(custom GPU kernel)에 의존합니다. 그들의 커널은 데이터센터용 Blackwell(SM100, B200 클래스)을 위해 작성되었습니다. 따라서 MiniMax M3는 조용히 밀집 어텐션(dense attention)으로 폴백(fallback)되어 속도가 매우 느려지며, DeepSeek V4의 연산(ops)은 CPU로 넘어가 14 t/s에서 멈춰버립니다. Unsloth가 아직 DeepSeek V4 flash용 GGUF를 출시하지 못한 가장 가능성 높은 이유는 이것입니다: https://github.com/ggml-org/llama.cpp/discussions/22376
SGLang과 vLLM을 사용하여 NVFP4 변형(variants)으로 많이 테스트해 보았지만, 별다른 성과는 없었습니다. 베이스라인(baseline)에서는 약간 더 빠르게 실행되지만, 컨텍스트가 커지면 어텐션 속도가 여전히 똑같이 느려집니다. 현재 SM120에서의 NVFP4는 무엇을 하든 버그가 있습니다: https://github.com/sgl-project/sglang/issues/19637
Step 3.7 Flash 또한 슬라이딩 윈도우 하이브리드(5대 1 대신 3대 1)를 사용하며, 178k 컨텍스트에서 약 40 t/s 정도로 높은 컨텍스트에서도 속도를 유지하므로 좋은 대안이 될 수 있습니다! (참고: Step 3.7 Flash는 소설 쓰기와 같은 창의적인 작업에서 더 주도적이고 창의적인 것으로 보입니다.)
저의 개인적인 코딩 벤치마크에서 Opus는 엣지 케이스(edge case)를 포함하여 완벽하게 해내는 반면, Sonnet은 핵심을 정확히 짚어냅니다. 그리고 제가 테스트한 이 로컬 모델들(Mimo 2.5, MiniMax 2.7, MiniMax M3, Step 3.7 Flash)은 품질 면에서 Sonnet 수준에 도달했습니다 (아니요, Qwen 3.5 122B 당신은 아닙니다, 미안합니다). 멋진 점은 Mimo 2.5가 약 4분 만에 해결한다는 것인데(Opus/Sonnet과 동일), MiniMax M3는 약 40분이 걸립니다(커피라도 한 잔 만들어 오세요).
점심을 먹고, 식물에 물을 주고, 풀이 자라는 것을 구경하고 오라는 뜻입니다.)
(보너스: 제 테스트 결과에 따르면, 동일한 VRAM 제한 환경에서 MiniMax M3 (427B)와 M2.7 (229B)은 품질이 거의 비슷해 보입니다. 단지 M3가 더 느릴 뿐이며, 공식 벤치마크에서 나타나는 지능 향상은 모델의 크기가 더 크기 때문인 것으로 보입니다.)
요약(TLDR); 소프트웨어가 최신 모델들을 RTX 5090 / RTX PRO 6000에서 사용 가능하게 만드는 데 뒤처져 있지만, Mimo 2.5와 Step 3.7 Flash는 에이전트적(agentic) 대규모 컨텍스트 작업에 매우 효과적인 "이전" 방식을 사용하고 있습니다.
제출자: /u/xquarx
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기