RTX5090, gemma-4-31B-it-Q6_K.gguf. 컨텍스트: 적용 전 - 35k, 적용 후 - 80k! - Insights | Molayo

어제 Deepseek Flash의 컨텍스트를 늘릴 수 있다는 메시지가 있었습니다. 그런데 Gemma4에서도 모든 것이 작동하는 것으로 밝혀졌습니다!
function dockergemma () {
docker run
-e GGML_CUDA_NO_PINNED=1
-p "$PORT_GEMMA":"$PORT_GEMMA"
-v "$LLM_PATH"
-v "$WORKSPACE_PATH"
--gpus "$LLM_GPU1" "$LLM_DOCKER_IMAGE"
--host 0.0.0.0 --threads 23 --flash-attn on --fit off --main-gpu 1 --jinja
--port "$PORT_GEMMA"
--ctx-size 80000
--temp 1.0
--top-p 0.95
--top-k 64
--ubatch-size 128 --batch-size 128
--tools all
--no-mmap
--backend-sampling --parallel 1
-m /models/new/gemma-4-31B-it/gemma-4-31B-it-Q6_K.gguf
}
팁:

GGML_CUDA_NO_PINNED=1
--backend-sampling --parallel 1
llama.cpp 웹 인터페이스의 경우, "Backend sampling" 체크박스를 확인하세요.
submitted by /u/Defiant_Diet9085
[link] [comments]

Insights

RTX5090, gemma-4-31B-it-Q6_K.gguf. 컨텍스트: 적용 전 - 35k, 적용 후 - 80k!

요약

핵심 포인트

댓글

Vanguard VT 대 State Street SPDW 글로벌 ETF 대결: 어떤 전 세계 범위 펀드가 더 나은 선택인가?

에이전틱 AI 보안: 리스크, OWASP Agentic Top 10, 그리고 방어 패턴 (2026)

AI 글쓰기의 징후: 독자들이 실제로 알아채는 것 (그리고 인간처럼 들리는 법)

Claude Code를 위한 자가 관리형 노트 시스템 구축하기

Vanguard VT 대 State Street SPDW 글로벌 ETF 대결: 어떤 전 세계 범위 펀드가 더 나은 선택인가?

에이전틱 AI 보안: 리스크, OWASP Agentic Top 10, 그리고 방어 패턴 (2026)

AI 글쓰기의 징후: 독자들이 실제로 알아채는 것 (그리고 인간처럼 들리는 법)

Claude Code를 위한 자가 관리형 노트 시스템 구축하기