본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 27. 23:04

SpectralQuant를 사용하여 BF16과의 격차를 96.5% 회복한 Qwen3.5 0.8B Q4_K_M 보정 인식 양자화 모델 구축

요약

Spectral Labs가 새로운 보정 인식 양자화 방식인 SpectralQuant를 통해 Qwen3.5 0.8B 모델의 성능을 극대화했습니다. 이 방식은 모델의 민감한 가중치를 보호하여 표준 Q4_K_M 용량에서도 BF16 모델과의 성능 격차를 96.5%까지 회복했습니다.

핵심 포인트

  • SpectralQuant는 보정 신호를 사용하여 양자화 오차를 영향력이 낮은 영역으로 분산시킴
  • 표준 llama.cpp 호환성을 유지하면서도 고효율 압축 달성
  • 동일 용량(4.52 BPW) 기준 Unsloth의 다양한 양자화 모델보다 낮은 프롬프트 손실 기록
  • BF16 참조 모델과의 성능 격차를 96.5% 수준으로 회복하는 성과 달성

안녕하세요 여러분,

저희 Spectral Labs에서 첫 번째 출시 후보(release candidate)를 방금 공개했습니다. 바로 저희가 SpectralQuant라고 부르는 새로운 보정 인식 양자화 (calibration-aware quantization) 방식을 사용하여 구축한 Qwen3.5 0.8B Q4_K_M 모델입니다.

이번 목표는 표준 llama.cpp 호환성을 깨뜨리거나 혼합 정밀도 사이드카 (mixed-precision sidecars)를 추가하지 않고도, 표준 Q4_K_M의 용량(footprint)이 더 큰 양자화 형식처럼 동작하게 만들 수 있는지 확인하는 것이었습니다.

방법론 (SpectralQuant)
일반적으로 양자화 (quantization)는 국소적인 반올림 문제로 취급됩니다. SpectralQuant는 이를 다르게 접근합니다. 저희는 보정 신호 (calibration signals)를 사용하여 모델 내에서 행동적으로 민감한 방향을 식별합니다. 양자화 오차를 균등하게 분산시키는 대신, 영향력이 낮은 영역이 압축 부담을 더 많이 흡수하도록 오차를 형성하여 가장 중요한 가중치 (weights)를 보호합니다.

결과
저희는 여러 검증 세트에 걸친 프롬프트 손실 (prompt loss)을 기준으로 평가합니다 (낮을수록 좋습니다). 이번 출시를 위해, 저희의 고정 용량 Q4_K_M (4.52 BPW / 415.7 MiB)을 BF16 참조 모델, 표준 llama.cpp 순수 Q4_K_M, 그리고 다양한 Unsloth 양자화 모델들과 비교했습니다.

모델BPW추정 크기 (MiB)수렴 (convergence)60 heldout120 C4 (64x256)
BF16 reference16.011446.52.26822.9809
SpectralQuant Q4_K_M4.52415.72.25092.99613.2874
Unsloth UD-Q4_K_XL5.79532.92.28332.9913
Unsloth IQ4_NL5.26483.42.32893.0484
Unsloth Q4_K_M5.52507.82.32683.05103.2574
Unsloth Q4_K_S5.27484.62.31263.0700
Unsloth IQ4_XS5.11469.82.38693.1061
llama.cpp pure Q4_K_M4.52415.72.74043.41353.3014

BF16 격차 회복: 저희의 heldout120 평가 스위트에서, 순수 llama.cpp Q4_K_M은 3.4135의 손실을 기록했습니다 (BF16의 2.9809 대비). SpectralQuant는 이 손실을 2.9961로 낮췄습니다. 이는 표준 Q4와 전체 BF16 사이의 격차를 96.5% 회복한 것입니다.

Vs. Unsloth: 4.52 BPW에서 SpectralQuant는 Unsloth의 Q4_K_S, Q4_K_M, IQ4_NL, IQ4_XS보다 heldout120에서 더 낮은 프롬프트 손실을 달성했습니다. 이 모델들은 모두 더 많은 바이트(5.11 ~ 5.52 BPW)를 사용합니다.

C4 Validation: 동일한 용량(footprint)에서 순수 Q4_K_M 대비 표준 C4 검증(validation)에서도 개선을 확인했습니다. 다만, 이 부분에서는 Unsloth의 Q4_K_M이 (약 92 MB를 더 사용하면서도) 근소하게 앞섭니다.

참고: convergence60에서 SpectralQuant는 BF16 참조 손실(reference loss)보다 약간 낮은 손실을 기록했습니다. 저희는 이것이 실제 행동 복구(behavioral recovery)인지, 아니면 국소적인 보정 정렬(localized calibration alignment)에 의한 것인지 파악하기 위해 적극적으로 분석 중입니다.

한계 및 투명성
이 모델이 무엇이고 무엇이 아닌지에 대해 명확히 밝히고자 합니다.

본 주장은 엄격하게 이 릴리스 표와 동일 용량의 Q4_K_M 동작에만 국한됩니다.
더 크거나 동적인 양자화(quantizations)는 특정 설정에서 여전히 더 나은 성능을 보일 수 있습니다. 항상 귀하의 특정 워크로드(workload)에서 평가해야 합니다.
여기에는 FP를 유지하는 모듈(FP-kept modules)이나 동적 양자화 형식(dynamic quant formats)이 포함되어 있지 않습니다. 이는 오늘 바로 llama-cli 또는 llama-server로 실행할 수 있는 엄격한 표준 GGUF 형식입니다.

Hugging Face Repo: https://huggingface.co/Spectral-Labs25/Qwen3.5-0.8B-SpectralQuant-Q4_K_M
수식과 방법론을 상세히 분석한 기술 블로그 포스트가 곧 공개될 예정입니다. 모델이 어떻게 작동하는지 저희에게 알려주세요!
제출자: /u/RevealIndividual7567
[link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0