GSM8K/IFEval/HumanEval에서 Qwythos-9B Q4_K_M 및 Q8_0 성능 평가

Qwen3.5-9B 기반의 추론 파인튜닝(fine-tune) 모델인 Qwythos-9B에 대해 Q4_K_M 및 Q8_0 GGUF 양자화(quant) 버전을 비교하는 전체 평가를 수행했습니다. 온라인에서 볼 수 있는 대부분의 양자화 비교는 어려운 벤치마크를 건너뛰거나 온도(temperature)를 제어하지 않기 때문에, 단순한 느낌(vibes)이 아닌 실제 수치를 확인하고 싶었습니다.

설정: RTX 5060 Ti 16GB (Blackwell, 연산 능력 12.0), 소스에서 빌드된 llama.cpp, lm_eval harness 사용, 재현성을 위해 모든 설정을 temp 0.0으로 설정.

GSM8K (전체 1319개 샘플, 유연한 추출): Q4_K_M 80.89%, Q8_0 84.31%. 3.4포인트의 차이가 발생했습니다.

IFEval (50개 샘플, 프롬프트 수준 엄격): Q4_K_M 60.00%, Q8_0 66.00%. 지시사항 수준(Instruction level)의 엄격한 차이는 약 9.2포인트로 더 넓었으며, 이는 세 가지 벤치마크 중 가장 큰 양자화 편차(delta)였습니다.

HumanEval: 두 양자화 버전 모두 pass@1 0%. Q8이 파싱 가능한 코드 블록을 약간 더 자주 생성하지만(추출률 26.8% vs 21.9%), 테스트 케이스를 통과한 것은 없었습니다. 이 모델은 역할극/추론용 튜닝 모델이지 코드 모델이 아닙니다. 코딩용으로 사용하지 마세요.

HellaSwag와 ARC는 실행되지 않았습니다. 모델의 문제가 아니라 도구의 문제입니다. qwen35 아키텍처가 아직 transformers의 GGUF 로더에 포함되지 않았으며, llama.cpp의 logprobs 형식이 lm_eval의 completions 백엔드에서 기대하는 형식과 일치하지 않습니다. 세 가지 백엔드를 시도하고 각 실패 사례를 기록한 후 넘어갔습니다.

주의할 점 하나: 재현성을 위해 모두 temperature 0.0 (greedy)에서 실행되었습니다. 모델 카드에서는 실제 사용 시 0.6을 권장하며, 특히 greedy 디코딩이 긴 생성 과정에서 반복 루프를 유발할 수 있다고 경고합니다. 따라서 이 수치들은 양자화 간의 확실한 비교 기준이 될 수 있지만, 일반적인 채팅 사용 시 보게 될 결과와 일치할 것이라고 가정하지는 마십시오.

실질적인 결론: 수학 중심의 추론 작업을 수행하는 경우, Q4_K_M은 디스크 및 VRAM을 40% 적게 사용하면서 Q8_0의 GSM8K 성능의 96%를 제공합니다. 코드 생성이 필요하다면 양자화와 상관없이 이 모델은 완전히 건너뛰십시오.

전체 방법론, 질문별 세부 분석 및 평가 스크립트는 댓글에 링크된 리포지토리(repo)에 있습니다.

공개 사항: 이 평가는 제가 공동 창립자 중 한 명인 자율 AI 엔지니어링 에이전트(autonomous AI engineering agent)인 Neo를 사용하여 실행되었습니다. Neo는 단 하나의 프롬프트(prompt)만으로 환경 설정, 디버깅(reasoning-preserve 플래그, IFEval을 위한 langdetect/immutabledict 의존성 누락 문제 등 모든 과정), 그리고 분석을 처리했습니다. 이 평가가 어떻게 제작되었는지에 대한 관련 맥락이므로 미리 밝혀둡니다.
제출자: /u/gvij
[link] [comments]

Insights

GSM8K/IFEval/HumanEval에서 Qwythos-9B Q4_K_M 및 Q8_0 성능 평가

요약

핵심 포인트

댓글

GPT 5.6이 다음 주에 출시됩니다.

Vltava Fund, 고평가 이유로 Lam Research (LRCX) 매도

Target, Amazon의 경쟁자인 독점 마켓플레이스에 유명 브랜드 추가

Show HN: ESP32에서 실행되는 OpenClaw-class 에이전트 (및 이를 가능하게 하는 IDE)

Vltava Fund, 고평가 이유로 Lam Research (LRCX) 매도

Target, Amazon의 경쟁자인 독점 마켓플레이스에 유명 브랜드 추가

Show HN: ESP32에서 실행되는 OpenClaw-class 에이전트 (및 이를 가능하게 하는 IDE)