LLM 성능 비교: Qwen 3.5 vs Gemma 4 (MoE/Dense) 최신 평가 분석
요약
본 보고서는 다양한 LLM 모델(Qwen 3.6, Gemma 4 26B/31B, Qwen 3.5 등)의 성능을 종합적으로 비교한 후속 평가 결과입니다. 특히 MoE 구조와 밀집(Dense) 구조 모델 간의 성능 차이를 집중 분석했습니다. 테스트 결과, Qwen 3.5 27B 및 Gemma 4 31B 같은 Dense 모델들이 높은 문제 해결 능력과 효율성을 보여주었습니다. Gemma 4 31B는 도구 호출(Tool Calling) 측면에서 가장 우수하며 모든 문제를 오류 없이 수정했습니다. 다만, 이 모델은 추론 속도가 매우 느리고(
핵심 포인트
- Qwen 3.5 27B 및 Gemma 4 31B와 같은 Dense 모델이 MoE 구조 모델보다 전반적인 문제 해결 능력에서 우위를 보였습니다.
- Gemma 4 31B는 도구 호출(Tool Calling) 측면에서 가장 뛰어난 성능을 보여주었으며, 총 100개의 성공적이고 오류 없는 호출을 기록했습니다.
- Qwen 3.5 27B 모델은 문제 해결당 평균 토큰 사용량(~16K)이 가장 적어 토큰 효율성이 높았습니다.
- Gemma 4 31B는 성능 면에서는 최고였으나, 추론 속도(Wall clock time)가 약 10시간 이상으로 매우 느리다는 단점이 발견되었습니다.
본 문서는 여러 대규모 언어 모델(LLM)의 실제 문제 해결 능력 및 효율성을 비교한 심층 평가 결과를 담고 있습니다. 주요 비교 대상은 Qwen 3.6-35B, Gemma 4 26B (MoE), Qwen 3.5-27B (Dense), 그리고 Gemma 4 31B (Dense)입니다.
📊 핵심 성능 지표 분석
1. 문제 해결 능력 (Net Score):
테스트 결과, Qwen 3.5-27B와 Gemma 4 31B가 각각 37점으로 가장 높은 점수를 기록하며 MoE 모델들을 능가했습니다. 특히 Dense 구조의 모델들이 전반적인 성능 면에서 우위를 점하는 것으로 나타났습니다.
- Qwen 3.5-27B Q4: 테스트 항목 중 37개 모두를 성공적으로 해결(100% 달성)했으며, 회귀(Regression)는 0건을 기록했습니다.
- Gemma 4 31B Q4: 이 모델 역시 37개의 문제를 완벽하게 해결하고 회귀가 없었습니다. (Qwen 3.6-35B와 Gemma 4 26B Q8은 각각 20점, 17점을 기록했습니다.)
2. 토큰 효율성 및 자원 사용:
토큰 사용량 측면에서는 Qwen 3.5-27B Q4가 가장 뛰어난 효율성을 보였습니다. 문제 해결당 평균 약 16K 토큰을 사용하여, 적은 리소스로 높은 성능을 달성했습니다.
- 반면, Gemma 4 31B는 총 입력+출력 토큰 합계(Grand total)가 가장 많았으며, 문제당 평균 토큰 사용량도 약 32K로 상대적으로 높았습니다.
3. 도구 호출 (Tool Calling) 능력:
실제 작업 수행 능력을 측정하는 도구 호출 측면에서는 Qwen 3.5-27B Q4가 총 181건의 호출을 기록하며 가장 높은 사용량을 보였습니다. 또한, Gemma 4 31B는 총 100개의 성공적인 도구 호출을 수행했으며, 모든 호출이 오류 없이 완료되었습니다.
- 특히 '읽기(read)' 기능에서 Qwen 3.5-27B가 91건으로 가장 많은 사용량을 보였고, 'grep' 기능에서는 Qwen 3.5-27B가 33건을 기록했습니다.
4. 속도 및 효율성 (Timing & Efficiency):
이 부분에서 Gemma 4 31B는 심각한 단점을 노출했습니다. 이 모델은 테스트를 완료하는 데 **약 37,748초(629분)**가 소요되어 추론 속도가 극도로 느렸습니다.
- 반면, Qwen 3.6-35B는 약 49분 만에 테스트를 마쳐 가장 빠른 평균 스텝 지속 시간(Avg step duration)을 기록했습니다.
💡 종합 결론 및 시사점
종합적으로 볼 때, Gemma 4 31B가 문제 해결 능력 자체는 객관적으로 가장 우수하다고 평가됩니다. 그러나 이 모델의 극도로 느린 추론 속도는 실제 서비스 환경에 큰 제약이 될 수 있습니다.
반면, Qwen 3.5-27B는 토큰 효율성과 전반적인 성능 균형 면에서 매우 강력한 후보로 보입니다. 가장 높은 문제 해결 능력과 낮은 자원 소모를 동시에 달성했기 때문입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기