Gemma 4 12B가 저의 새로운 주력 모델입니다
요약
로컬 코딩 환경에서 Gemma 4 12B(Unsloth Q5_K_XL) 모델을 주력으로 사용한 경험을 공유합니다. Q4 대비 속도는 다소 낮아졌으나 구문 오류 수정이 현저히 줄어들었으며, 도구 호출(Tool call) 설정이 간편하여 워크플로우 효율이 높습니다.
핵심 포인트
- Gemma 4 12B Q5_K_XL 모델은 로컬 코딩 시 높은 정확도를 제공함
- Q4 대비 토큰 생성 속도는 감소했으나 구문 오류 발생률이 크게 낮아짐
- llama.cpp와 Q8 KV 캐시를 활용해 32k 컨텍스트 윈도우 구현 가능
- Qwen 모델 대비 도구 호출(Tool call) 설정이 매우 간편함
- Lua 언어 및 HTML 게임 제작 등 다양한 코딩 작업에 효과적임
Unsloth Q5_K_XL이 로컬 코딩을 위한 저의 공식적인 주력 모델(main squeeze)이 되었습니다. 처음에는 Q4_K_XL로 시작했지만, 구문 오류(syntax errors)를 너무 자주 수정해야 한다는 것을 알게 되었습니다. 아주 나쁜 정도는 아니었지만, 구문 문제만으로 23번이나 수정해야 했던 파일이 하나 있었습니다. Q4에서는 약 61 t/s(tokens per second) 정도의 속도가 나왔고, Q5로 옮기면서 50 t/s로 떨어졌지만, 이제 대부분의 작업이 한 번에 해결됩니다 (zero-shot은 아니고, 이 아이에게 무엇을 만들지 여전히 말해줘야 했습니다 윙크, 문법/기술 네오나치 분들 보고 있습니다). 모델 파일 크기는 약 8.6GB입니다. 저는 속도를 빠르게 유지하기 위해 llama.cpp에서 Q8 KV 캐시(KV cache)를 사용하여 컨텍스트 윈도우(context window)를 32k로 제한했습니다. 모든 설정을 마친 결과, 캐시된 체크포인트(cached checkpoints)에 1GB가 넘게 넘치는 것을 포함하여 약 15.7 GB의 VRAM을 사용합니다. 솔직히 제 워크플로우에는 32k면 충분합니다. 제가 완수해야 할 정확한 작업에 집중하기에 차고 넘치는 공간입니다. 이것이 Qwen 3.6 27B(어차피 저는 실행조차 할 수 없었지만)나 35B A3B보다 나은지 묻기 전에... 저에게 답은 '예'입니다. 몇 가지 이유가 있습니다: 도구 호출(Tool call)의 골칫거리: Qwen의 도구 호출을 XML에서 JSON으로 구성해야 했습니다. 이는 일관성을 떨어뜨렸고, 채팅 템플릿(chat template), llama.cpp 설정, 메모리 관리(memory management)를 너무 많이 만져야 했습니다. Gemma 4는 플러그 앤 플레이(plug-and-play) 방식입니다: 저는 그저 캐시를 설정하고, 컨텍스트 길이(context length)를 고정한 뒤, 제 PI 하네스(harness)에 연결하기만 하면 바로 작동했습니다. 저는 코드를 작성하고, 짧은 이야기를 쓰고, HTML 게임을 만들 수 있습니다. 아직 Godot로 테스트해 볼 필요가 있지만, 취미로 Cyberpunk 2077 모드를 만들기 때문에 Lua에는 아주 잘 작동합니다. Qwen, 우리가 헤어져야 해서 미안해. 네 잘못이 아니라 내 잘못이라는 걸 이해해 줘. XOXO
AI 자동 생성 콘텐츠
본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기