Quality comparison between Qwen 3.6 27B quantizations (BF16, Q8_0, Q6_K
요약
본 기사는 Qwen 3.6 27B 모델의 다양한 양자화(BF16, Q8_0, Q6_K 등) 버전을 사용하여 복잡한 체스판 SVG 이미지 생성 작업을 수행하고 그 품질을 비교 분석한 내용입니다. 테스트 결과, BF16과 Q8_0이 가장 높은 정확도를 보였으며, Q6_K부터는 성능 저하가 시작되는 경향을 보였습니다. 특히 IQ3_XXS와 같은 고압축 버전은 조각 배치 및 하이라이트 등 많은 부분을 성공적으로 수행했으나, 보드 방향과 같은 세부적인 오류를 보이기도 했습니다. 최종적으로 작성자는 16GB VRAM 환경에서 성능과 품질의 균형을 고려할 때 IQ4_XS 이하로는 사용하지 않을 것이라는 결론을 내리며, 특정 양자화 버전(IQ4_XS)을 추천하고 그 속도와 효율성을 제시했습니다.
핵심 포인트
- 양자화 수준이 낮아질수록 (예: BF16 $\rightarrow$ Q3_XXS), 모델의 성능 저하가 발생하며, 특히 복잡한 시각적 추론(SVG 생성)에서 오류가 두드러집니다.
- Q8_0은 전체 정밀도의 대부분을 유지하면서도 높은 품질을 보여주어 안정적인 선택지입니다.
- IQ3_XXS와 같은 고압축 버전은 놀라울 정도로 많은 부분을 성공적으로 처리하지만, 보드 방향과 같은 근본적인 구조적 오류를 범할 수 있습니다.
- 작성자는 16GB VRAM 환경에서 속도(pp 100 tps)와 품질을 고려했을 때 IQ4_XS가 가장 실용적인 선택지라고 결론 내렸습니다.
Qwen 3.6 27B 양자화 버전 간 품질 비교
다음은 Qwen 3.6 27B 의 다양한 양자화 (BF16, Q8_0, Q6_K, Q5_K_XL, Q4_K_XL, IQ4_XS, IQ3_XXS 등) 간의 품질 차이 (즉, 성능 저하) 를 테스트하기 위해 제가 만든 비포괄적인 테스트입니다. 저는 16 GB VRAM 설정에서 실행할 가장 좋은 양자화 버전을 파악하고 싶습니다.
우리가 테스트하는 것
먼저 프롬프트:
주어진 체스 게임의 PGN 문자열:
1. b3 e5 2. Nf3 h5 3. d4 exd4 4. Nxd4 Nf6 5. f4 Ke7 6. Qd3 d5 7. h4 *
현재 체스판 상태를 파악하고, SVG 코드로 이미지를 생성하세요. 또한 마지막 보드를 강조하세요.
모델이 다음을 할 수 있는지 확인하고 싶습니다:
- 각 이동 후 판 상태를 추적하여 최종 상태 (1 번 이동의前半) 에 도달할 수 있는가
- 판에 맞는 올바른 SVG 이미지를 생성하고, 조각을 올바르게 배치하며, 마지막 이동을 강조할 수 있는가
그리고 네, 의문이 있으시다면. 모델이 기존 체스 게임과 같은 작업을 수행하도록 훈련되었을 가능성이 있으므로, 저는 300 elo 이상의 플레이어가 결코 하지 않았던 종류의 무작위 이동을 만들어냈습니다.
체스 플레이어들이 아닌 분들을 위해, 이것이 7 번 이동 후 h4 에 도달한 판의 예상되는 모습입니다. 참고로, 이미지 품질이 아니라 조각 위치와 판 방향을 확인해야 합니다. 이는 Lichess 의 스크린샷이기 때문입니다.
다른 모델도 이를 해결할 수 있는가?
주요 부분으로 넘어가기 전에, 다른 모델들의 결과를 보여드리겠습니다. 많은 모델들이 판 상태를 파악하고, 더군다나 올바르게 렌더링하는 데 어려움을 겪는다는 점이 흥미롭습니다.
Qwen 3.5 27B
대부분 마지막 조각 위치를 파악했지만, 여전히 원래 판 상태를 위에 렌더링했습니다. 잘못된 사각형을 강조했고, 판 방향이 잘못되었습니다.
Gemma 4 31B
네이티브 체스 dot com 플래그십 스타일입니다. 저는 판 상태를 파악할 수 있지만, 올바르게 렌더링하지는 못했습니다. 사각형 패턴도 엉망입니다.
Qwen3 Coder Next
무엇을 말해야 할지 모르겠습니다. 상당히 실망스럽습니다.
Qwen3.6 35B A3B
예상대로, 35B 는 항상 가장 빠른 Qwen 모델이지만, 동시에 여러 다른 방식으로 성공적으로 임무를 실패했습니다. 이것이 제가 27B 를 16 GB 카드에 압축하는 방법을 찾기기로 한 이유입니다. 속도만으로는 가치가 없습니다.
Qwen3.6 27B 가 이를 어떻게 해결했는가?
여러 모델은 동일한 set of llama.cpp 파라미터로 테스트되었습니다:
- temp 0.6
- top-p 0.95
- top-k 20
- min-p 0.0
- presence_penalty 1.0
- context window 65536
BF16 버전은 OpenRouter 에서, Q8 에서 Q4_K_XL 버전은 L40S 서버에서, 나머지는 RTX 5060 Ti 에서 실행되었습니다.
Llama.cpp Web UI 에서 직접 생성된 SVG 코드 (도구나 MCP 활성화 없이, 원래는 Pi agent 에서 실행했으나 모델이 상위 폴더를 들여다보고 기존 SVG 도형을 발견하여 대부분 복사함).
BF16 - Full precision
이 테스트의 기준선입니다. 필요한 모든 것이 있습니다: 올바른 위치, 올바른 보드 방향, 올바른 조각 색상, 올바른 하이라이트. 점선 파란색은 예상치되었으나 흥미롭습니다. 나중에 볼 수 있는 것처럼 많은 고 양자 모델이 이를 생성하지 않기 때문입니다.
Q8_0
예상대로 Q8 은 선을 제외하고 전체 정밀도의 거의 모든 것을 유지합니다.
Q6_K
여기서 품질 손실이 시작됩니다. 즉, 5 랭크 병의 배치입니다. 조각의 외형은 대부분 Q6 가 다른 폰트를 사용하기로 결정했기 때문입니다. 이 테스트에서는 어떤 모델도 자신의 조각을 그리는 것을 시도하지 않습니다.
Q5_K_XL
Q8 과 매우 유사해 보이지만, Q5 버전의 SVG 코드가 7.1 KB 라고 Q8 은 4.7 KB 라는 점을 주목할 가치가 있습니다.
Q4_K_XL and IQ4_XS
폰트 선택을 무시하면 Q4_K_XL 이 더 완전한 해결책임을 볼 수 있습니다. 왜냐하면 보드 좌표가 있기 때문입니다.
Q3_K_XL and Q3_K_M
IQ3_XXS
이제 흥미로운 부분이 시작됩니다. 모든 것이 거의 옳았습니다. 조각 배치와 하이라이트, 그리고 마지막 이동에 선이 있습니다!
하지만 IQ3_XXS 는 보드 방향을 잘못 얻습니다. 왼쪽 아래에 있는 밝은 사각형을 보세요?
Q2_K_XL
이것은 시간 낭비입니다. 하지만 모든 조각 위치가 옳았습니다. 보드는 전혀 정렬되지 않았습니다.
SO, WHAT DO I USE?
단일 테스트만으로는 결론을 도출하기에 충분하지 않습니다. 하지만 개인적으로 이 테스트 후 IQ4_XS 보다 아래는 결코 선택하지 않을 것입니다 (Q3_K_XL 및 그 이하로 다른 시도에서 나쁜 경험이 있었습니다).
내 RTX 5060 Ti 에서 vanilla llama.cpp (ctk 와 ctv 모두 q8, fit on) 으로 IQ4_XS 를 사용할 때 pp 100 tps와 tg 8 tps를 얻었습니다. 하지만 TheTom's TurboQuant 포크로 GPU 오프로드를 모든 레이어에 강제 (\
다음은 다른 KV cache 양자화 (quantization) 예시입니다.
여기 https://qwen3-6-27b-benchmark.vercel.app/ 에서 모든 결과를 직접 확인하실 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기