본문으로 건너뛰기

© 2026 Molayo

Reddit중요요약2026. 04. 24. 07:08

MacBook Air M5에서 21개 로컬 LLM 코딩 성능 및 속도 비교 분석

요약

본 글은 MacBook Air M5 환경에서 21개의 다양한 크기와 아키텍처를 가진 로컬 대규모 언어 모델(LLM)의 코딩 능력과 추론 속도를 비교한 결과를 담고 있습니다. 평가 지표는 164개 코딩 문제에 대한 pass@1 점수와 토큰/초(tok/s) 단위의 처리 속도입니다. 분석 결과, Qwen 3.6 35B-A3B 모델이 89.6%로 가장 높은 코딩 정확도를 보였으며, Phi 4 Mini 3.8B는 작은 크기에도 불구하고 빠른 속도와 준수한 성능을 보여 '가성비' 모델로 주목받았습니다. 또한, Gemma 4 계열의 결과에 대한

핵심 포인트

  • 최고 코딩 정확도는 Qwen 3.6 35B-A3B (MoE)가 89.6%를 기록하며 가장 우수했습니다.
  • 자원 효율성 측면에서는 Phi 4 Mini 3.8B 모델이 2.5 GB의 VRAM을 사용하면서도 70.7%의 높은 코딩 정확도와 19.6 tok/s의 빠른 속도를 보여 뛰어난 가성비를 입증했습니다.
  • Qwen 2.5 Coder 7B는 4.5 GB의 적은 메모리로 84.2%의 준수한 코딩 성능을 달성하여, 일상적인 코딩 보조 도구로 가장 실용적일 수 있습니다.
  • Gemma 4 계열 모델들은 다양한 크기에서 기대보다 낮은 코딩 점수를 보여, 특정 양자화(Q4_K_M)나 평가 환경이 아키텍처의 강점을 충분히 반영하지 못했을 가능성이 제기되었습니다.

최근 LLM 커뮤니티에서는 특정 모델이 '코딩에 더 좋다'는 주관적인 의견들이 많습니다. 본 분석은 이러한 느낌(vibes) 대신 실제 데이터를 제시하여, 동일한 조건에서 21개의 로컬 LLM을 MacBook Air M5 하드웨어 위에서 코딩 정확도와 처리 속도를 객관적으로 비교했습니다.

📊 평가 방법론 및 지표

평가는 표준 HumanEval이 아닌 테스트 케이스가 추가된 EvalPlus HumanEval+를 사용했으며, 총 164개의 코딩 문제를 다루었습니다. 각 모델은 독립적으로(동시 프로세스 없음) 평가되었으며, 주요 측정 지표는 다음과 같습니다:

  • HumanEval+ 점수: 코드를 얼마나 정확하게 작성하는지 나타내는 pass@1 비율입니다.
  • Speed (tok/s): 1초당 생성할 수 있는 토큰(token)의 개수로, 모델의 추론 속도를 의미합니다.
  • VRAM: 모델 구동에 필요한 비디오 메모리 용량입니다.

✨ 주요 성능 분석 결과

1. 압도적인 최고 성능: Qwen 3.6 35B-A3B (MoE)

테이블 상 가장 높은 코딩 정확도를 보인 모델은 Qwen 3.6 35B-A3B (Mixture of Experts, MoE)입니다. 이 모델은 89.6%의 HumanEval+ 점수를 기록하며 명확한 우위를 차지했습니다. 주목할 점은, 이름상으로는 35B 파라미터임에도 불구하고 MoE 아키텍처 덕분에 16.9 tok/s라는 높은 속도를 유지했다는 것입니다. 이는 모델의 **활성 파라미터(Active parameter count)**가 속도에 더 중요하며, 전체 파라미터 수는 품질을 결정하는 데 중요하다는 점을 시사합니다.

2. 최고의 가성비 선택: Phi 4 Mini 3.8B

작은 크기에서 놀라운 성능을 보여준 모델로 Phi 4 Mini 3.8B가 있습니다. 이 모델은 단 2.5 GB의 VRAM만으로 구동되면서도 70.7%라는 준수한 코딩 정확도를 달성했습니다. 또한, 19.6 tok/s의 빠른 속도는 여러 대형 모델을 능가합니다. 빠르고 작으면서도 합리적인 수준의 코드를 생성해야 할 때 강력한 후보입니다.

3. 실용적 일상 보조 도구: Qwen 2.5 Coder 7B

만약 사용 가능한 RAM 용량이 제한적이고, 매일 사용하는 코딩 비서가 필요하다면 Qwen 2.5 Coder 7B를 추천합니다. 이 모델은 단 4.5 GB의 VRAM으로 84.2%라는 높은 정확도를 보여주며, 속도 역시 11.3 tok/s로 안정적입니다.

4. 주목할 만한 아키텍처 비교: Gemma 4 계열

Gemma 4 계열 모델들의 결과는 흥미롭습니다. 예를 들어, 가장 큰 Gemma 4 31B는 31.1%의 점수를 기록하여 Llama 3.2 1B (32.9%)보다 낮은 결과를 보였습니다. 또한 MoE 변형인 Gemma 4 26B-A4B는 12.2%에 그쳤습니다. 이는 Q4_K_M 양자화(quantization) 방식이 Gemma 4 아키텍처의 강점을 충분히 끌어내지 못했거나, HumanEval+ 테스트 세트가 해당 모델의 특성과 맞지 않았을 가능성을 제기하며 논의할 가치가 있습니다.

💡 결론 및 시사점

이 비교 분석은 단순히 '모델 크기가 클수록 좋다'는 통념을 깨고, **아키텍처(MoE)**와 실제 사용 환경에서의 효율성이 모델 선택에 결정적임을 보여줍니다. 최고 성능을 원한다면 Qwen 3.6 35B-A3B를, 자원 제약과 빠른 속도를 동시에 고려한다면 Phi 4 Mini 3.8B 또는 Qwen 2.5 Coder 7B가 최적의 선택이 될 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0