Krasis 업데이트: 8GB 3070 Mobile 노트북(32GB RAM)에서 읽기 속도(1x)로 구동되는 Qwen3.6-35B-A3B
요약
Krasis v1.0은 VRAM 용량을 초과하는 대규모 언어 모델을 시스템 RAM에서 VRAM으로 효율적으로 스트리밍하여 실행하는 LLM 런타임입니다. 전체 실행 과정을 Rust로 전환하여 Python GIL 문제를 해결하고, Ampere 아키텍처 지원 및 메모리 사용량 최적화를 달성했습니다.
핵심 포인트
- 전체 실행 과정을 Rust로 구현하여 Python GIL 병목 현상 제거
- VRAM 부족 시 시스템 RAM을 활용한 효율적인 모델 스트리밍
- RTX 3000 시리즈(Ampere) 지원 및 메모리 오버헤드 감소
- 4비트 및 6비트 KV 캐시 도입을 통한 성능 최적화
문맥 (Context)
Krasis는 VRAM(비디오 램)에 다 들어가지 않는 모델을 실행하기 위한 LLM (대규모 언어 모델) 런타임 (Runtime)입니다. Krasis는 시스템 RAM에서 VRAM으로 모델을 효율적으로 스트리밍하며, 프리필 (Prefill)과 디코드 (Decode)를 별도의 아키텍처 및 최적화된 사용 사례로 처리합니다.
최신 결과 (v1.0 출시)
- 1x 노트북 RTX 3070 Mobile 8GB, (35B 파라미터, Q4) Qwen3.6-35B-A3B (HQQ4, k4v4) : 222 pp, 12.48 tg
- 1x RTX 5080 16GB, (35B 파라미터, Q4) Qwen3.6-35B-A3B (HQQ4, k4v4) : 3,743 pp, 60 tg
- 1x RTX A4500 20GB, (35B 파라미터, Q4) Qwen3.6-35B-A3B (HQQ6, k6v6) : 2,235 pp, 51 tg
- 1x RTX A4500 20GB, (80B 파라미터, Q4) Qwen3-Coder-Next, (HQQ6, k4v4) : 1,569 pp, 34.7 tg
- 1x RTX 5090 32GB, (35B 파라미터, Q4) Qwen3.6-35B-A3B (HQQ4, k4v4) : 10,030 pp, 124.9 tg
- 1x RTX 5090 32GB, (80B 파라미터, Q4) Qwen3-Coder-Next, (HQQ8, k4v4) : 6,111 pp, 88.6 tg
- 1x RTX 5090 32GB, (122B 파라미터, Q4) Qwen3.5-122B-A10B : (HQQ6, k4v4) : 4,880 pp, 25.2 tg
(벤치마크 참고 사항: Krasis는 프리필 (Prefill)과 디코드 (Decode)에 대한 벤치마크 수치를 수집할 때 다양한 프롬프트 길이를 실행합니다. 이 수치들은 모든 프롬프트 길이에 대한 평균이 아니라, 벤치마크 중에 얻은 최상의 처리량 (Throughput)을 나타냅니다. 프리필 처리량은 일반적으로 입력이 커짐에 따라 확장되는 경향이 있고, 디코드 처리량은 런타임에서 일반적으로 나타나는 현상과 같이 출력이 커짐에 따라 감소하는 경향이 있습니다.)
최신 업데이트
Krasis의 초기 출시 이후 몇 달이 지났습니다.
비교적 빠르게 변경될 것이라고 생각했던 작업들이 예상보다 훨씬 오래 걸렸지만, 이제 Krasis는 더 많은 모델에 대한 지원을 구축할 수 있는 견고한 기반이 되었다고 느낍니다.
가장 큰 변경 사항은 다음과 같습니다:
- 전체 Rust 실행 (All Rust Execution): Krasis는 이제 핫 패스 (hot path)에서 Python을 전혀 실행하지 않습니다. Python의 GIL (Global Interpreter Lock)이 불필요한 상황에서도 빈번하게 어려움과 속도 저하를 유발한다는 것을 발견했습니다. 초기 전처리 (pre-processing) 단계에는 여전히 Python이 사용되지만, 이제 모델이 실행될 때는 100% Rust로 구동되며 더 빠르게 작동합니다.
- 속도 (Speed): Krasis는 이제 모델을 더 빠르게 실행합니다. 가장 큰 성능 향상은 프리필 (prefill) 단계에서 나타나지만, 디코딩 (decode) 또한 더 빨라졌습니다.
- Ampere 지원 (Ampere support): 이제 RTX 3000 시리즈 카드를 완전히 지원합니다. 저는 A4500 20GB를 사용하여 Qwen3.6-35B-A3B와 같이 GPU에 다 들어가지 않는 상당한 크기의 모델은 물론, Qwen3-Coder-Next (80B 파라미터)에서도 좋은 속도를 얻고 있습니다.
- 메모리 개선 (Memory improvements): Krasis는 더 이상 시스템 RAM에 양자화된 모델 크기의 2배를 요구하지 않으며, 1배에 약간의 오버헤드(overhead)만 있으면 됩니다.
- 새로운 4비트 및 6비트 KV 캐시 (New 4-bit and 6-bit KV cache): Krasis는 이제 4비트 및 6비트 KV 캐시 (KV cache) 구현을 갖추고 있으며, 두 방식 모두 BF16 대비 정확도에 대해 철저히 테스트되었고 좋은 결과를 얻었습니다. TurboQuant를 기반으로 했던 Polar4는 정확도가 충분하지 않아 제외되었습니다 (흥미롭게도 TurboQuant의 정확도 주장은 작업 점수 보존과 관련이 있었던 반면, Krasis에서는 다양한 프롬프트에 대해 양자화된 모델과 BF16/참조 모델 간의 출력 정확한 일치 길이 (exact match length), top-k 포함 여부, 퍼플렉시티 (perplexity) 및 분포 드리프트 (distribution drift)를 기반으로 정확도를 측정합니다). 새로운 KV 캐시는 FP8 명령어를 요구하지 않으므로 Ampere 카드와 완전히 호환됩니다.
- 4, 6 또는 8비트의 민감도 인식 HQQ 어텐션 (Sensitivity Aware HQQ Attention at 4, 6 or 8 bits): Krasis는 더 이상 AWQ 어텐션 (AWQ attention)을 사용하지 않습니다. AWQ는 사람들이 다운로드할 수 있는 템플릿을 생성하기 위해 모델을 BF16으로 실행해야 했습니다. 종종 사용자들이 이를 직접 수행하는 데 필요한 VRAM을 가지고 있지 않을 수 있으므로, 저는 더 나은 대안을 원했습니다. Krasis는 이제 4, 6 또는 8비트에서 HQQ 어텐션을 실행하며, 더 높은 정확도를 달리기 위해 정밀도를 혼합 (mix precision)할 수 있습니다. HQQ 자산은 모델을 수학적으로 평가하여 구축되므로 이전에 구축된 템플릿이 필요하지 않습니다.
평가 과정에서 Krasis는 모델의 어떤 영역이 양자화 (quantisation)에 가장 민감한지 추정할 수 있으며, 메모리 사용량을 낮게 유지하면서도 더 민감한 영역을 더 높은 정밀도로 이동시켜 BF16 실행 대비 더 나은 정확도를 제공하는 90% HQQ4 + 10% HQQ6 또는 90% HQQ6 + 10% HQQ8 구성을 제안할 수 있습니다. HQQ는 Ampere 카드와도 완전히 호환됩니다.
- 안정성 개선: Krasis는 이제 캐시에서 동적으로 데이터를 축출 (evicting)함으로써 시스템의 다른 곳에서 발생하는 VRAM 변화를 처리합니다. Krasis는 모델 실행 성능을 최적화하기 위해 VRAM 사용을 극대화하지만, 이전에는 WSL을 통해 Windows에서 Krasis를 실행한 후 Opencode를 열면 Windows가 Opencode에 500MB 이상의 VRAM을 할당함에 따라 (일시적이든 아니든) 실행에 실패하는 경우가 있었습니다. 이제 Krasis는 이를 처리하며 안전 버퍼를 유지하면서 물러납니다.
- Qwen3.6-35B-A3B 지원: Krasis는 이제 최신 Qwen 3.6 모델을 지원합니다.
직접 사용해보기
Krasis는 복사/붙여넣기만으로 설정이 가능하며, Linux 또는 WSL을 사용하는 Windows에서 실행할 수 있습니다. 설치가 완료되면 이제 "krasis update" 또는 "krasis prerelease"를 사용하여 최신 릴리스 또는 프리릴리스 (prerelease)로 업데이트할 수 있습니다.
GitHub 리포지토리 - https://github.com/brontoguana/krasis
곧 출시 예정
이제 Krasis는 KV 캐시 (KV cache)와 어텐션 (attention)이 적절한 위치에 자리 잡은 견고하고 정확한 기반을 갖추었으므로, 저는 Google의 Gemma 및 MiniMax와 같은 더 많은 모델에 집중하고 모델에 대한 비전 (vision) 지원 구현을 살펴볼 계획입니다.
이 프로젝트가 나아가야 할 미래 방향이나 여러분이 이를 어떻게 사용할 수 있을지에 대한 의견이 있다면 매우 듣고 싶습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기