Minimax 2.7을 Strix Halo에서 100k 컨텍스트로 구동하기
요약
본 글은 Minimax 2.7 모델을 Strix Halo 환경에서 10만 토큰 컨텍스트 크기로 구동하는 방법을 공유합니다. 이를 위해 `llama-server`와 같은 도구를 사용하여 다양한 고급 옵션(예: `--no-context-shift`, `--kv-unified`)을 조합하고, 메모리 관리 및 성능 최적화에 초점을 맞춘 상세한 명령어 라인과 그 근거를 제시합니다.
핵심 포인트
- Minimax 2.7 모델을 Strix Halo에서 10만 컨텍스트로 구동하는 구체적인 방법을 제공함.
- 성능 최적화를 위해 `--kv-unified` 옵션을 사용하여 여러 세션이 캐시를 공유하도록 함으로써 VRAM 사용량을 절약할 수 있음.
- OOM(Out Of Memory) 문제를 해결하기 위해 `--cache-ram 0` 옵션을 사용하여 캐시가 RAM으로 스왑되는 것을 방지하는 것이 중요함.
- 명령어의 각 옵션(예: `--no-context-shift`, `-b 1024`)에 대한 상세한 기술적 근거와 사용 목적을 설명하여 실질적인 가이드를 제공함.
이것을 공유하고 싶었습니다. 여기에 도달하기까지 많은 조정(tweaking)이 필요했습니다:
llama-server -hf unsloth/MiniMax-M2.7-GGUF:UD-IQ3_XXS --temp 1.0 --top-k 40 --top-p 0.95 --host 0.0.0.0 --port 8080 -c 100000 -fa on -ngl 999 --no-context-shift -fit off --no-mmap -np 2 --kv-unified --cache-ram 0 -b 1024 -ub 1024 --cache-reuse 256
다양한 옵션의 근거(Reasoning behind the various options)
--no-context-shift: 컨텍스트가 부족할 때 조용히 데이터를 손상시키는 대신, 제가 알림을 받고 싶습니다.
--no-mmap: Donato가 추천했습니다.
-np 2: 최대 두 개의 동시 세션에 대해 컨텍스트를 유지합니다.
--kv-unified: 두 세션이 같은 캐시를 공유하도록 하여 VRAM을 절약합니다.
--cache-ram 0: 캐시가 RAM으로 스왑되는 것을 방지하고, 대신 VRAM에 머무르게 합니다. 이것은 저에게 많은 OOM(Out Of Memory) 문제를 해결해 주었습니다.
-b 1024 -ub 1024: 프리필(prefill) 성능을 개선합니다.
--cache-reuse 256: 캐시를
EDIT Look_0ver_There 님이 이것이 "concurrency = 1" (동시성 = 1) 시나리오에서만 작동한다는 면책 조항을 약간 추가할 것을 제안했습니다. --kv-unified를 사용하고 있기 때문에, 만약 동시 요청(concurrent requests)이 있다면 두 번째 요청이 첫 번째 세션의 캐시를 오염(poisoning)시킬 가능성이 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기