Reddit요약2026. 05. 15. 04:46

모델 및 양자화 (Quants) 품질 테스트 결과 - 체스판 svg (Qwen3.6 27B/35B-A3B/Zaya1)

요약

본 기사는 다양한 모델과 양자화(Quantization) 기술을 사용하여 체스판 SVG 생성 품질을 비교 분석한 결과를 담고 있습니다. Qwen 3.6 35B-A3B MLX oQ4는 제목, 라벨 등에서 거의 완벽한 출력을 보였으나, 일부 커서 표시가 혼란스러울 수 있다는 점이 지적되었습니다. 또한 ZAYA1 8B와 같은 오픈 웨이트 모델은 로컬 환경에서의 추론 엔진 준비가 필요하며, Qwen 3.6 27B의 경우 양자화 비트(Q6, Q3.5)에 따라 성능 차이를 보였습니다.

핵심 포인트

Qwen 3.6 35B-A3B MLX oQ4는 체스판 SVG 생성에서 매우 높은 품질을 보여주었으나, 커서 표시가 다소 혼란스러울 수 있습니다.
ZAYA1 8B와 같은 오픈 웨이트 모델은 로컬 환경에서의 추론 엔진 구현에 어려움이 있어 클라우드 플레이그라운드 사용이 필요할 수 있습니다.
Qwen 3.6 27B의 경우, 양자화 비트(Quantization bits)를 낮출수록 성능 저하가 발생하며, Q4K_M 같은 파생 모델들이 좋은 결과를 보여주기도 합니다.
HY3 Preview 295B와 같이 대규모 모델은 개인 사양 기기에서 구동이 어려워 클라우드 환경을 이용해야 할 수 있습니다.

이 내용에 따르면, 저는 더 많은 모델과 양자화 (Quants) 모델을 다루기 위해 몇 가지 테스트를 추가로 실행했습니다.

https://www.reddit.com/r/LocalLLaMA/comments/1t53dhp/quality_comparison_between_qwen_36_27b/

Qwen3.6 35B-A3B MLX oQ4. 추가 폰 2개. (oMLX - local)

Qwen 3.6 35B-A3B MLX oQ4의 출력은 제목, 마지막 수 라벨, 행(row) 및 열(col)을 포함하여 거의 완벽합니다. 하지만 시작 지점을 나타내는 커서 하나와 종료 지점을 나타내는 다른 커서(빨간색 삼각형) 2개는 언뜻 보기에 약간 혼란스러울 수 있습니다. 하지만 추가 폰이 2개 있습니다.

ZAYA1 8B - 완벽하지만 a-h, 1-8 행/열 표시가 없음 (Zaya Cloud)

ZAYA1 8B는 오픈 웨이트 (open weight) 모델입니다. 저는 이 PR을 사용하여 MLX-LM으로 이를 실행하려고 시도했지만, 성공하지 못했습니다. 8비트 (8 bits) 모델은 어떠한 svg도 생성하지 못한 채 추론 (reasoning) 과정이 루프에 빠진 상태를 유지했습니다. 로컬 추론 엔진 (local inference engine)이 아직 준비되지 않은 것 같습니다. 이 모델은 수행을 위해 RSA 기술이 필요하기 때문입니다. 그래서 저는 Zaya Cloud의 플레이그라운드(playground)에서 얻은 결과를 게시했습니다. 해당 결과가 FP16 버전이라고 가정합니다. 만약 로컬 추론 엔진이 어떻게든 동일한 답변을 생성할 수 있다면, 우리는 우리의 작은 컴퓨터에서 실행할 수 있는 매우 유망한 모델을 갖게 될 것입니다. 제 컴퓨터에서 8비트 양자화 (8 bits quant)를 실행하는 전체 과정은 12GB 미만의 메모리를 사용합니다.

Qwen3.6 27B MLX oQ6. 매우 좋음 (oMLX - local) 행/열 표시 없음

27B 모델의 MLX-oQ 6비트 양자화 (6 bit quant)는 좋고 정확한 답변을 제공했지만, 3.5비트 (3.5 bits)로 낮추는 데는 성공하지 못했습니다.

Qwen3.6 27B MLX oQ3.5e, 그다지 좋지 않음. (oMLX - local)

HY3 Preview 295B A21B - 완벽하지만 선이 없음. 행도 없고 열도 없음. (Open Router)

HY3의 295B는 제 사양의 기기에서는 돌아가지 않을 것입니다. 그래서 결과는 클라우드(cloud)에서 가져왔습니다.

이제 우리는 Hugging Face에 떠다니는 수천 개의 파생 모델(derivatives)을 사용하는 기묘한 영역에 진입하고 있습니다. Jackrong, OrionLLM, DavidAU의 모델들을 사용할 예정인데, 이들은 모두 일종의 벤치마크(benchmarks)를 게시했으며 좋은 결과를 약속했기 때문입니다.

GRM 2.6 Plus Q4K_M - OrionLLM의 Qwen3.6 27B 파생 모델 - 정확하며 매우 좋아 보임.

GRM 2.6 Plus Q3K_M - OrionLLM의 Qwen3.6 27B 파생 모델 - 3비트(bits)는 충분하지 않았음.

qwen3.6-27b-neo-code-di-imatrix-max@iq4_nl - 이 4비트 양자화(quant)는 좋습니다.

qwen3.6-27b-neo-code-di-imatrix-max@q5k_s - 하지만 그 5비트 대응 모델은 완전히 틀렸습니다.

이것은 더 높은 비트의 양자화(quant)가 항상 더 낮은 비트의 양자화보다 성능이 더 좋을 것이라는 의미는 아닙니다.

Qwopus 35B-A3B-v1 Jackrong의 Q4K_S - 보드가 틀렸고 'the word game ended'라는 말이 갑자기 튀어나옴.

GRM 2.6 Opus 3 bit Q3K_M, 정확하지만 시각적 요소가 저하됨. 어떻게든 작동하는 가장 작은 27B 양자화(quant) 모델.

AI 자동 생성 콘텐츠

원문 바로가기

모델 및 양자화 (Quants) 품질 테스트 결과 - 체스판 svg (Qwen3.6 27B/35B-A3B/Zaya1)

요약

핵심 포인트

댓글