RTX5090, gemma-4-31B-it-Q6_K.gguf. 컨텍스트: 적용 전 - 35k, 적용 후 - 80k!
요약
Gemma-4-31B-it 모델의 컨텍스트 길이를 35k에서 80k로 확장하는 Docker 실행 방법과 설정 팁을 공유합니다. llama.cpp 환경에서 Flash Attention 및 특정 파라미터 설정을 통해 성능을 최적화하는 방법을 다룹니다.
핵심 포인트
- Gemma-4-31B-it 모델의 컨텍스트를 80k까지 확장 가능
- Docker 환경에서 GPU 및 Flash Attention 설정 방법 제공
- GGML_CUDA_NO_PINNED=1 및 Backend sampling 설정 팁
- llama.cpp 웹 인터페이스 활용 시 주의사항 안내
어제 Deepseek Flash의 컨텍스트를 늘릴 수 있다는 메시지가 있었습니다. 그런데 Gemma4에서도 모든 것이 작동하는 것으로 밝혀졌습니다!
function dockergemma () {
docker run
-e GGML_CUDA_NO_PINNED=1
-p "$PORT_GEMMA":"$PORT_GEMMA"
-v "$LLM_PATH"
-v "$WORKSPACE_PATH"
--gpus "$LLM_GPU1" "$LLM_DOCKER_IMAGE"
--host 0.0.0.0 --threads 23 --flash-attn on --fit off --main-gpu 1 --jinja
--port "$PORT_GEMMA"
--ctx-size 80000
--temp 1.0
--top-p 0.95
--top-k 64
--ubatch-size 128 --batch-size 128
--tools all
--no-mmap
--backend-sampling --parallel 1
-m /models/new/gemma-4-31B-it/gemma-4-31B-it-Q6_K.gguf
}
팁:
- GGML_CUDA_NO_PINNED=1
- --backend-sampling --parallel 1
- llama.cpp 웹 인터페이스의 경우, "Backend sampling" 체크박스를 확인하세요.
submitted by /u/Defiant_Diet9085
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기