GSM8K/IFEval/HumanEval에서 Qwythos-9B Q4_K_M 및 Q8_0 성능 평가
요약
Qwen3.5-9B 기반 추론 모델인 Qwythos-9B의 GGUF 양자화 버전(Q4_K_M, Q8_0) 성능을 GSM8K, IFEval, HumanEval 벤치마크로 비교 분석했습니다. 수학 및 지시 이행 능력에서는 양자화에 따른 성능 차이가 존재하나, 코딩 능력은 두 버전 모두 매우 낮음을 확인했습니다.
핵심 포인트
- GSM8K 수학 성능에서 Q8_0이 Q4_K_M보다 약 3.4%p 높음
- IFEval 지시 이행 능력에서 양자화 간 약 9.2%p의 큰 성능 차이 발생
- HumanEval 코딩 성능은 두 버전 모두 0%로 코딩용 사용 부적합
- Q4_K_M은 VRAM을 40% 적게 사용하면서도 수학 성능의 96%를 유지함
- 평가 과정은 자율 AI 에이전트 Neo를 통해 자동화됨
Qwen3.5-9B 기반의 추론 파인튜닝(fine-tune) 모델인 Qwythos-9B에 대해 Q4_K_M 및 Q8_0 GGUF 양자화(quant) 버전을 비교하는 전체 평가를 수행했습니다. 온라인에서 볼 수 있는 대부분의 양자화 비교는 어려운 벤치마크를 건너뛰거나 온도(temperature)를 제어하지 않기 때문에, 단순한 느낌(vibes)이 아닌 실제 수치를 확인하고 싶었습니다.
설정: RTX 5060 Ti 16GB (Blackwell, 연산 능력 12.0), 소스에서 빌드된 llama.cpp, lm_eval harness 사용, 재현성을 위해 모든 설정을 temp 0.0으로 설정.
GSM8K (전체 1319개 샘플, 유연한 추출): Q4_K_M 80.89%, Q8_0 84.31%. 3.4포인트의 차이가 발생했습니다.
IFEval (50개 샘플, 프롬프트 수준 엄격): Q4_K_M 60.00%, Q8_0 66.00%. 지시사항 수준(Instruction level)의 엄격한 차이는 약 9.2포인트로 더 넓었으며, 이는 세 가지 벤치마크 중 가장 큰 양자화 편차(delta)였습니다.
HumanEval: 두 양자화 버전 모두 pass@1 0%. Q8이 파싱 가능한 코드 블록을 약간 더 자주 생성하지만(추출률 26.8% vs 21.9%), 테스트 케이스를 통과한 것은 없었습니다. 이 모델은 역할극/추론용 튜닝 모델이지 코드 모델이 아닙니다. 코딩용으로 사용하지 마세요.
HellaSwag와 ARC는 실행되지 않았습니다. 모델의 문제가 아니라 도구의 문제입니다. qwen35 아키텍처가 아직 transformers의 GGUF 로더에 포함되지 않았으며, llama.cpp의 logprobs 형식이 lm_eval의 completions 백엔드에서 기대하는 형식과 일치하지 않습니다. 세 가지 백엔드를 시도하고 각 실패 사례를 기록한 후 넘어갔습니다.
주의할 점 하나: 재현성을 위해 모두 temperature 0.0 (greedy)에서 실행되었습니다. 모델 카드에서는 실제 사용 시 0.6을 권장하며, 특히 greedy 디코딩이 긴 생성 과정에서 반복 루프를 유발할 수 있다고 경고합니다. 따라서 이 수치들은 양자화 간의 확실한 비교 기준이 될 수 있지만, 일반적인 채팅 사용 시 보게 될 결과와 일치할 것이라고 가정하지는 마십시오.
실질적인 결론: 수학 중심의 추론 작업을 수행하는 경우, Q4_K_M은 디스크 및 VRAM을 40% 적게 사용하면서 Q8_0의 GSM8K 성능의 96%를 제공합니다. 코드 생성이 필요하다면 양자화와 상관없이 이 모델은 완전히 건너뛰십시오.
전체 방법론, 질문별 세부 분석 및 평가 스크립트는 댓글에 링크된 리포지토리(repo)에 있습니다.
공개 사항: 이 평가는 제가 공동 창립자 중 한 명인 자율 AI 엔지니어링 에이전트(autonomous AI engineering agent)인 Neo를 사용하여 실행되었습니다. Neo는 단 하나의 프롬프트(prompt)만으로 환경 설정, 디버깅(reasoning-preserve 플래그, IFEval을 위한 langdetect/immutabledict 의존성 누락 문제 등 모든 과정), 그리고 분석을 처리했습니다. 이 평가가 어떻게 제작되었는지에 대한 관련 맥락이므로 미리 밝혀둡니다.
제출자: /u/gvij
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기