본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 04. 27. 11:35

Qwen3.6-27B 양자화 비교: FP8 vs INT8 및 NVFP 성능 분석

요약

Qwen3.6-27B 모델의 양자화 방식별 메모리 사용량과 성능 특성을 분석한 업데이트된 데이터입니다. FP8이 W8A8 구조로 인해 INT8(W8A16)보다 성능이 낮을 수 있으며, THoTD와 Cyan 모델의 NVFP4(A4) 및 BF16-INT4 혼합 정밀도 방식에 따른 메모리 증가와 정확도 트레이드오프를 확인하세요.

핵심 포인트

  • Qwen3.6-27B 의 FP8 양자화는 W8A8 구조로 인해 INT8(W8A16)보다 성능이 떨어질 수 있음
  • THoTD 모델은 NVFP4A16 구조로 메모리 사용량이 다른 방식 대비 더 큼
  • Cyan 모델에서 INT4 에서 BF16-INT4 로 전환 시 6GB 의 컨텍스트 공간 손실 발생

Qwen3.6-27B KLDs - INTs and NVFPs

UPDATED.

NOTICE

Qwen 의 FP8 은 INT8 보다 성능이 떨어집니다. 이는 Qwen 의 FP8 이 대부분 W8A8 구조인 반면, INT8 은 W8A16 구조이기 때문입니다. 다시 말해, 활성화 (Activations) 가 중요한 역할을 합니다. W8A8 은 8bit 로 유지되므로 이론상 더 빨라야 하지만 실제로는 그렇지 않을 수 있습니다.

더 많은 데이터를 추가할 예정이지만, 현재로서는 모델을 선택하실 때 참고하시기 바랍니다. 사용 사례 (USE-CASE) 가 매우 중요합니다.

  • THoTD 의 NVFP 크기가 다른 모델보다 큽니다.
    • 이는 THoTD 가 NVFP4A16 구조인 반면, 다른 모델은 NVFP4(A4) 구조이기 때문입니다.
      • NVFP4(A4) 는 4bit 로 전체적으로 유지되므로, 배치 처리 (batching) 를 수행할 경우 배치 처리가 진행됨에 따라 더 나은 성능을 볼 수 있습니다.
  • Cyan 모델에서 INT4 에서 BF16-INT4 로 전환 시 메모리 사용량이 급격히 증가합니다.
    • 이는 고려해볼 만한 점입니다. 혼합 정밀도 (Mixed-precision) 는 놀라운 성능을 보이지만, 더 많은 공간을 차지합니다. 0.02 의 정확도 향상을 위해 6GB 의 컨텍스트 공간을 잃어도 될까요? 이는 각자가 결정해야 할 사항입니다.

더 많은 모델이 온라인에 등장함에 따라 그래프에 추가할 예정입니다. 아는 것이 많을수록, 당신에게 맞는 최적의 양자화 방식을 첫 번째로 잡으세요!

AI 자동 생성 콘텐츠

본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
6

댓글

0