Reddit요약2026. 06. 15. 09:38

Gemma 4 12B가 저의 새로운 주력 모델입니다

요약

로컬 코딩 환경에서 Gemma 4 12B(Unsloth Q5_K_XL) 모델을 주력으로 사용한 경험을 공유합니다. Q4 대비 속도는 다소 낮아졌으나 구문 오류 수정이 현저히 줄어들었으며, 도구 호출(Tool call) 설정이 간편하여 워크플로우 효율이 높습니다.

핵심 포인트

Gemma 4 12B Q5_K_XL 모델은 로컬 코딩 시 높은 정확도를 제공함
Q4 대비 토큰 생성 속도는 감소했으나 구문 오류 발생률이 크게 낮아짐
llama.cpp와 Q8 KV 캐시를 활용해 32k 컨텍스트 윈도우 구현 가능
Qwen 모델 대비 도구 호출(Tool call) 설정이 매우 간편함
Lua 언어 및 HTML 게임 제작 등 다양한 코딩 작업에 효과적임

Unsloth Q5_K_XL이 로컬 코딩을 위한 저의 공식적인 주력 모델(main squeeze)이 되었습니다. 처음에는 Q4_K_XL로 시작했지만, 구문 오류(syntax errors)를 너무 자주 수정해야 한다는 것을 알게 되었습니다. 아주 나쁜 정도는 아니었지만, 구문 문제만으로 23번이나 수정해야 했던 파일이 하나 있었습니다. Q4에서는 약 61 t/s(tokens per second) 정도의 속도가 나왔고, Q5로 옮기면서 50 t/s로 떨어졌지만, 이제 대부분의 작업이 한 번에 해결됩니다 (zero-shot은 아니고, 이 아이에게 무엇을 만들지 여전히 말해줘야 했습니다 윙크, 문법/기술 네오나치 분들 보고 있습니다). 모델 파일 크기는 약 8.6GB입니다. 저는 속도를 빠르게 유지하기 위해 llama.cpp에서 Q8 KV 캐시(KV cache)를 사용하여 컨텍스트 윈도우(context window)를 32k로 제한했습니다. 모든 설정을 마친 결과, 캐시된 체크포인트(cached checkpoints)에 1GB가 넘게 넘치는 것을 포함하여 약 15.7 GB의 VRAM을 사용합니다. 솔직히 제 워크플로우에는 32k면 충분합니다. 제가 완수해야 할 정확한 작업에 집중하기에 차고 넘치는 공간입니다. 이것이 Qwen 3.6 27B(어차피 저는 실행조차 할 수 없었지만)나 35B A3B보다 나은지 묻기 전에... 저에게 답은 '예'입니다. 몇 가지 이유가 있습니다: 도구 호출(Tool call)의 골칫거리: Qwen의 도구 호출을 XML에서 JSON으로 구성해야 했습니다. 이는 일관성을 떨어뜨렸고, 채팅 템플릿(chat template), llama.cpp 설정, 메모리 관리(memory management)를 너무 많이 만져야 했습니다. Gemma 4는 플러그 앤 플레이(plug-and-play) 방식입니다: 저는 그저 캐시를 설정하고, 컨텍스트 길이(context length)를 고정한 뒤, 제 PI 하네스(harness)에 연결하기만 하면 바로 작동했습니다. 저는 코드를 작성하고, 짧은 이야기를 쓰고, HTML 게임을 만들 수 있습니다. 아직 Godot로 테스트해 볼 필요가 있지만, 취미로 Cyberpunk 2077 모드를 만들기 때문에 Lua에는 아주 잘 작동합니다. Qwen, 우리가 헤어져야 해서 미안해. 네 잘못이 아니라 내 잘못이라는 걸 이해해 줘. XOXO

AI 자동 생성 콘텐츠

원문 바로가기

Gemma 4 12B가 저의 새로운 주력 모델입니다

요약

핵심 포인트

댓글