오늘 제가 보고 경험한 가장 재미있는 일
요약
8GB VRAM 환경의 RTX 4060에서 Gemma-4-12B-Coder GGUF 모델을 초당 20토큰 이상의 속도로 로컬 실행하는 방법을 소개합니다. Anthropic의 Claude Fable 5 CoT 데이터를 활용해 미세 조정된 이 모델은 클라우드 없이 오프라인으로 강력한 코딩 추론 성능을 제공합니다.
핵심 포인트
- 8GB VRAM 환경에서 20+ tok/sec 속도로 로컬 실행 가능
- Claude Fable 5의 CoT 데이터를 활용한 미세 조정 모델
- llama.cpp를 이용한 GPU 오프로딩 및 64K 컨텍스트 설정 방법
- 클라우드 및 API 의존 없는 로컬 AI의 중요성 강조
오늘 제가 보고 경험한 가장 재미있는 일입니다.
8 GB VRAM 환경에서 gemma-4-12B-coder-fable5-composer2.5-v1-GGUF 모델을 초당 20개 이상의 토큰(20+ tok/sec) 속도로 로컬에서 실행했습니다.
Anthropic의 Claude Fable 5는 6월 9일에 출시되었습니다.
6월 12일이 되자 해당 모델은 차단되었습니다. 저는 접근할 수 없고, 여러분도 접근할 수 없습니다.
하지만 반전이 있습니다. 저는 제 RTX 4060 8GB에서 Fable 5의 사고 사슬 (Chain of Thought, CoT) 데이터를 통해 학습된 모델을 초당 20개 토큰(20 tok/s)의 속도로 실행하고 있습니다.
로컬에서. 오프라인으로. 클라우드 없이. 수출 통제 없이.
소개합니다: Gemma4-12B-Coder GGUF (Q4_K_M)
베이스 (Base): Google의 gemma-4-12B-it
검증 가능한 Python CoT 데이터로 미세 조정 (Fine-tuned):
- 주요 데이터 (Primary): Composer 2.5의 실제 추론 흔적 (통과된 솔루션만 유지)
- 보조 데이터 (Auxiliary): Composer가 놓친 어려운 사례들을 다시 처리하기 위해 Fable 5 사용
모든 학습 예제의 추론은 실제로 실행 가능한 코드로 이어졌습니다. 환각 (Hallucination)된 로직은 없습니다.
Llama.cpp 플래그 (Flags):
-m gemma4-coding-Q4_K_M.gguf -cnv -ngl 44 -c 64000 -v
(huggingface 모델 링크는 댓글에 있습니다)
플래그 상세 분석:
-ngl 44 → 44개의 레이어를 GPU로 오프로드 (VRAM에 맞춰 조정하세요)
-c 64000 → 64K 컨텍스트 윈도우 (Context window)
-cnv → 대화/채팅 모드 (Conversation/chat mode)
-v → 상세 출력 (Verbose output)
아이러니는 스스로 설명됩니다.
Anthropic은 Fable 5 (mythos)가 출시하기에는 너무 강력하다고 세상에 알리며 몇 주를 보냈습니다. 그러고 나서 출시했습니다. 그러다 자사 연구원들을 포함하여 서비스를 제공하는 것이 금지되었습니다.
그동안: Fable 5의 추론을 바탕으로 학습된 Gemma 4 12B 미세 조정 모델은 제 중급형 소비자용 GPU에서 완전히 오프라인으로 실행됩니다.
API 없음. 클라우드 없음. 오직 저와 llama.cpp뿐입니다.
이것이 로컬 AI가 중요한 이유입니다.
댓글에서 모델 링크를 확인해 보세요. 이 모델을 사용해 본 경험은 어떠셨나요?
AI 자동 생성 콘텐츠
본 콘텐츠는 X 토픽: Claude/Anthropic의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기