Zenn헤드라인2026. 05. 30. 10:48

로컬 LLM (Qwen3.6 / Gemma4 / DeepSeek V4 Flash) + Claude 벤치마크 비교

요약

Aider Polyglot 서브셋을 활용하여 로컬 LLM(Qwen3.6, Gemma4, DeepSeek V4 Flash)과 Claude Sonnet 4.5의 코딩 성능을 비교 분석했습니다. 실험 결과, Claude Sonnet 4.5가 정답률과 속도 면에서 압도적이었으며 로컬 모델은 아직 에이전트 활용에 한계가 있음을 확인했습니다.

핵심 포인트

Claude Sonnet 4.5가 정답률(85.9%)과 출력 포맷 적정률에서 가장 우수함
로컬 모델 중 DeepSeek V4 Flash(Q2)가 가장 높은 지능을 보임
Gemma 4는 출력 포맷 유지 능력이 낮아 정답률 저하 요인이 됨
사용 편의성 측면에서는 Qwen3.6 35B 모델이 가장 적합할 것으로 평가됨

로컬 LLM의 성능이 궁금하다

로컬 LLM (Local LLM)의 성능이 어느 정도인지 궁금해서 벤치마크를 진행해 보았습니다.

주로 코딩 용도를 의식하고 있으며, 코딩 계열에서 컴팩트한 Aider Polyglot이라는 벤치마크의 서브셋(Subset)을 사용하고 있습니다.

측정 대상 모델

모델	양자화 (Quantization)	사이즈	추론 엔진 (Inference Engine)
DeepSeek V4 Flash	q2-imatrix	81GB	ds4
...
※ 모두 Thinking ON

ds4는 Apple Silicon용 DeepSeek V4 Flash 전용 엔진이며, 이번에 사용한 모델은 오리지널에 비해 대폭 압축된 모델입니다. 오리지널에 조금 더 가까운 Q4 모델도 있지만, 저희 PC의 메모리 사정상 Q2가 한계였습니다. - Claude Sonnet 4.5는 로컬 LLM은 아니지만, 비교하고 싶어서 벤치마크에 포함했습니다.

벤치마크

Aider Polyglot의 서브셋 (Python과 Rust만 포함)

Aider Polyglot은 본래 C++, Go, Java, JavaScript, Python, Rust 등 총 225문항이 포함된 벤치마크이지만, 전부 수행하면 시간이 너무 오래 걸리기 때문에 Python과 Rust로 한정한 64문항으로 구성했습니다.

가장 쉬운 Python과 가장 어려운 Rust(독단과 편견에 따름)를 픽업했습니다.

하드웨어

Mac Studio
CPU: Apple M3 Ultra
Memory: 96GB

결과 요약

정답률

모델	정답률
Claude Sonnet 4.5	85.9% 👑
...

1문항 해답의 평균 시간

모델	평균
Claude Sonnet 4.5	1.3분 ⚡
...

출력 포맷 적정률

모델	가중 평균
Claude Sonnet 4.5	100%
...	68.7% ⚠️

Aider는 모델에 정해진 형식의 출력을 지시하지만, Gemma는 그 출력 포맷이 무너지는 비율이 높았다. 이것이 정답률을 낮추는 요인 중 하나이다.

생성 속도

모델	생성 avg
Gemma 4 26B A4B q4	73.58 t/s
...

로컬 LLM 3개 모델 모두 MoE(Mixture of Experts) 방식이지만, DeepSeek V4 Flash는 284B A13B로 다른 2개 모델보다 파라미터(Parameter)가 많기 때문에 느리다.

총평

로컬 LLM은 아직 Claude Sonnet 4.5를 이길 수 없다

로컬 모델 중에서는 DeepSeek V4 Flash의 Q2가 가장 똑똑하다.
열심히 튜닝을 해서 그런지 모르겠지만, ds4는 Q2임에도 성능이 나쁘지 않다.
하지만 다른 로컬 모델과 비교하면 상당히 느리다.
Gemma 4는 지능 면에서 한 단계 뒤처진다.
메모리와 속도를 고려하면, Qwen3.6 35B A3B가 가장 사용하기 편할 것 같다.

AI 에이전트(AI Agent)로 사용하려면 Claude Sonnet 4.5 정도가 하한선이라고 생각하며, 로컬 LLM은 아직 조금 더 정진이 필요하다는 감상입니다.

Discussion

AI 자동 생성 콘텐츠

원문 바로가기