X요약2026. 06. 15. 11:09

오늘 제가 보고 경험한 가장 재미있는 일

요약

8GB VRAM 환경의 RTX 4060에서 Gemma-4-12B-Coder GGUF 모델을 초당 20토큰 이상의 속도로 로컬 실행하는 방법을 소개합니다. Anthropic의 Claude Fable 5 CoT 데이터를 활용해 미세 조정된 이 모델은 클라우드 없이 오프라인으로 강력한 코딩 추론 성능을 제공합니다.

핵심 포인트

8GB VRAM 환경에서 20+ tok/sec 속도로 로컬 실행 가능
Claude Fable 5의 CoT 데이터를 활용한 미세 조정 모델
llama.cpp를 이용한 GPU 오프로딩 및 64K 컨텍스트 설정 방법
클라우드 및 API 의존 없는 로컬 AI의 중요성 강조

오늘 제가 보고 경험한 가장 재미있는 일입니다.

8 GB VRAM 환경에서 gemma-4-12B-coder-fable5-composer2.5-v1-GGUF 모델을 초당 20개 이상의 토큰(20+ tok/sec) 속도로 로컬에서 실행했습니다.

Anthropic의 Claude Fable 5는 6월 9일에 출시되었습니다.

6월 12일이 되자 해당 모델은 차단되었습니다. 저는 접근할 수 없고, 여러분도 접근할 수 없습니다.

하지만 반전이 있습니다. 저는 제 RTX 4060 8GB에서 Fable 5의 사고 사슬 (Chain of Thought, CoT) 데이터를 통해 학습된 모델을 초당 20개 토큰(20 tok/s)의 속도로 실행하고 있습니다.

로컬에서. 오프라인으로. 클라우드 없이. 수출 통제 없이.

소개합니다: Gemma4-12B-Coder GGUF (Q4_K_M)

베이스 (Base): Google의 gemma-4-12B-it

검증 가능한 Python CoT 데이터로 미세 조정 (Fine-tuned):

주요 데이터 (Primary): Composer 2.5의 실제 추론 흔적 (통과된 솔루션만 유지)
보조 데이터 (Auxiliary): Composer가 놓친 어려운 사례들을 다시 처리하기 위해 Fable 5 사용

모든 학습 예제의 추론은 실제로 실행 가능한 코드로 이어졌습니다. 환각 (Hallucination)된 로직은 없습니다.

Llama.cpp 플래그 (Flags):
-m gemma4-coding-Q4_K_M.gguf -cnv -ngl 44 -c 64000 -v
(huggingface 모델 링크는 댓글에 있습니다)

플래그 상세 분석:
-ngl 44 → 44개의 레이어를 GPU로 오프로드 (VRAM에 맞춰 조정하세요)
-c 64000 → 64K 컨텍스트 윈도우 (Context window)
-cnv → 대화/채팅 모드 (Conversation/chat mode)
-v → 상세 출력 (Verbose output)

아이러니는 스스로 설명됩니다.

Anthropic은 Fable 5 (mythos)가 출시하기에는 너무 강력하다고 세상에 알리며 몇 주를 보냈습니다. 그러고 나서 출시했습니다. 그러다 자사 연구원들을 포함하여 서비스를 제공하는 것이 금지되었습니다.

그동안: Fable 5의 추론을 바탕으로 학습된 Gemma 4 12B 미세 조정 모델은 제 중급형 소비자용 GPU에서 완전히 오프라인으로 실행됩니다.

API 없음. 클라우드 없음. 오직 저와 llama.cpp뿐입니다.

이것이 로컬 AI가 중요한 이유입니다.

댓글에서 모델 링크를 확인해 보세요. 이 모델을 사용해 본 경험은 어떠셨나요?

AI 자동 생성 콘텐츠

원문 바로가기