Reddit요약2026. 05. 04. 04:13

Gemma4-31B-3bit-mlx · Hugging Face: RAM이 부족한 Mac 사용자를 위한 3 & 5 mixed quant

요약

본 기술 기사는 RAM이 제한적인 Mac 환경에서 Google의 최신 대규모 언어 모델(LLM)인 Gemma 4를 구동할 수 있도록 최적화된 '3&5 mixed quant' 버전을 소개합니다. 이 버전은 기존 3bit-mlx 모델보다 용량이 작고 속도가 빠르며, 특히 비전 기능이 중요하지 않은 사용자에게 적합합니다. 사용자는 특정 추론 파라미터 설정과 LM Studio의 고급 기능을 활용하여 Gemma 4의 성능을 극대화할 수 있습니다.

핵심 포인트

RAM 제약 환경(Mac)에서 Google의 최신 LLM인 Gemma 4를 구동하기 위한 경량화된 '3&5 mixed quant' 모델이 출시되었습니다.
새로운 버전은 기존 3bit-mlx 모델 대비 용량이 더 작고 추론 속도가 빠르다는 장점이 있습니다.
Gemma 4는 Qwen3.6과 비교했을 때, 복잡한 사고 과정(thinking)을 위한 토큰 사용량이 적어 효율적입니다.
최적의 성능을 위해 `temperature=1.0`, `top_p=0.95` 등 표준화된 추론 파라미터 설정이 권장됩니다.
LM Studio에서 'thought' 섹션 파싱 기능을 활성화하여 모델의 추론 과정을 효과적으로 활용할 수 있습니다.

RAM이 부족한 Base-model-only Mac 사용자 중 Google 의 최상위 LLM 이고 싶은 Gemma4 를 시도해 보고자 하는 분들을 위해 또 다른 3&5 mixed quant 를 출시했습니다.

기존의 다른 3bit-mlx 모델보다 6GB 가 작으며, 25% 더 빠릅니다.

Google 에서 제공하는 순수 LLM 의 고밀도 13 GB. 비전 (vision) 을 중요하게 생각하지 않는 절박한 분들을 위한 것입니다. (더 빠르고 동등한 성능을 가진 tiny Qwen3.5-2B 를 사용하세요.)

다음과 같은 경우 이상적입니다:

24GB RAM Mac 에서 Qwen3.6 의 STEM(과학/기술/공학/수학) 집중보다 최신 Gemma4 의 Humanities/Humanities/Communications/SocialStudies 에 더 선호하는 경우.
지나치게 장황한 추론 모델 (Qwen3.x 👀) 을 좋아하거나 필요로 하지 않는 경우. Gemma4 는 Qwen3.6 과 비교할 때 'thinking'을 위한 토큰만 1/4 씩 사용합니다.

권장 추론 파라미터

모든 사용 사례에서 최고의 성능을 얻으려면 다음 표준화된 샘플링 구성을 사용하세요:

Parameter	Value
`temperature`	1.0
`top_p`	0.95
`top_k`	64
`min_p`	0.05
`repeat_penalty`	1.05

LM Studio — 추론 섹션 파싱

추론/생각 (thinking/reasoning) 출력 파싱을 활성화하려면:

Start string: <|channel>thought
End string: <channel|>

ninja 템플릿에 추가하세요:

{%- set enable_thinking = true %}

AI 자동 생성 콘텐츠

원문 바로가기

Gemma4-31B-3bit-mlx · Hugging Face: RAM이 부족한 Mac 사용자를 위한 3 & 5 mixed quant

요약

핵심 포인트

권장 추론 파라미터

LM Studio — 추론 섹션 파싱

댓글