본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 28. 18:55

clark-labs/clark-air-sana-1.6b-1.58bit · Hugging Face

요약

Clark Labs가 Sana 1.6B 텍스트-이미지 변환기를 삼진법(ternary) 방식으로 양자화하여 공개했습니다. FP16 대비 모델 크기를 약 8.6배 줄이면서도 유사한 품질을 유지하는 것이 특징입니다.

핵심 포인트

  • 삼진법 양자화를 통해 가중치당 약 1.85비트로 압축
  • FP16 대비 모델 크기를 3.21GB에서 374MB로 대폭 축소
  • 고정밀 레이어(약 5%)를 유지하여 품질 저하 최소화
  • Apache-2.0 라이선스로 제공되는 오픈 소스 모델

삼진법(ternary, 가중치당 약 ~1.85 bits)으로 압축된 Sana 1.6B 텍스트-이미지 변환기(text-to-image transformer): FP16보다 8.6배 작으며, FP16에 근접한 품질을 제공합니다.

Footprint (측정치)

Artifact Size vs FP16What it is
FP16 transformer 3.21 GB1× (100%) reference
Clark Air (packed) 374 MB8.6× (≈12%) packed ternary (clark-air-sana-1.6b-packed.safetensors)
Clark Air (unpacked) 3.21 GBcompatibility this repo's transformer/, dequantized bf16, drop-in diffusers

측정치 ~1.85 bits/weight → 8.6배 작음 (374 MB packed ÷ 3.21 GB FP16).

정보
Transformer 가중치는 그룹별 스케일(group-wise scales)을 사용하여 삼진법(ternary)으로 양자화(quantized)되었습니다. 소수의 고정밀 테일(high-precision tail, 파라미터의 약 5%, 컨디셔닝(conditioning) 및 프로젝션(projection) 레이어)은 더 높은 정밀도로 유지됩니다.

Base: Sana 1.6B, 512px

라이선스
Apache-2.0 © Clark Labs, Inc.

제출자: /u/pmttyji

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0