본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 05. 04. 04:13

Gemma4-31B-3bit-mlx · Hugging Face: RAM이 부족한 Mac 사용자를 위한 3 & 5 mixed quant

요약

본 기술 기사는 RAM이 제한적인 Mac 환경에서 Google의 최신 대규모 언어 모델(LLM)인 Gemma 4를 구동할 수 있도록 최적화된 '3&5 mixed quant' 버전을 소개합니다. 이 버전은 기존 3bit-mlx 모델보다 용량이 작고 속도가 빠르며, 특히 비전 기능이 중요하지 않은 사용자에게 적합합니다. 사용자는 특정 추론 파라미터 설정과 LM Studio의 고급 기능을 활용하여 Gemma 4의 성능을 극대화할 수 있습니다.

핵심 포인트

  • RAM 제약 환경(Mac)에서 Google의 최신 LLM인 Gemma 4를 구동하기 위한 경량화된 '3&5 mixed quant' 모델이 출시되었습니다.
  • 새로운 버전은 기존 3bit-mlx 모델 대비 용량이 더 작고 추론 속도가 빠르다는 장점이 있습니다.
  • Gemma 4는 Qwen3.6과 비교했을 때, 복잡한 사고 과정(thinking)을 위한 토큰 사용량이 적어 효율적입니다.
  • 최적의 성능을 위해 `temperature=1.0`, `top_p=0.95` 등 표준화된 추론 파라미터 설정이 권장됩니다.
  • LM Studio에서 'thought' 섹션 파싱 기능을 활성화하여 모델의 추론 과정을 효과적으로 활용할 수 있습니다.

RAM이 부족한 Base-model-only Mac 사용자 중 Google 의 최상위 LLM 이고 싶은 Gemma4 를 시도해 보고자 하는 분들을 위해 또 다른 3&5 mixed quant 를 출시했습니다.

기존의 다른 3bit-mlx 모델보다 6GB 가 작으며, 25% 더 빠릅니다.

Google 에서 제공하는 순수 LLM 의 고밀도 13 GB. 비전 (vision) 을 중요하게 생각하지 않는 절박한 분들을 위한 것입니다. (더 빠르고 동등한 성능을 가진 tiny Qwen3.5-2B 를 사용하세요.)

다음과 같은 경우 이상적입니다:

  • 24GB RAM Mac 에서 Qwen3.6 의 STEM(과학/기술/공학/수학) 집중보다 최신 Gemma4 의 Humanities/Humanities/Communications/SocialStudies 에 더 선호하는 경우.
  • 지나치게 장황한 추론 모델 (Qwen3.x 👀) 을 좋아하거나 필요로 하지 않는 경우. Gemma4 는 Qwen3.6 과 비교할 때 'thinking'을 위한 토큰만 1/4 씩 사용합니다.

권장 추론 파라미터

모든 사용 사례에서 최고의 성능을 얻으려면 다음 표준화된 샘플링 구성을 사용하세요:

ParameterValue
temperature1.0
top_p0.95
top_k64
min_p0.05
repeat_penalty1.05

LM Studio — 추론 섹션 파싱

추론/생각 (thinking/reasoning) 출력 파싱을 활성화하려면:

  • Start string: <|channel>thought
  • End string: <channel|>

ninja 템플릿에 추가하세요:

{%- set enable_thinking = true %}

AI 자동 생성 콘텐츠

본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
8

댓글

0