clark-labs/clark-air-sana-1.6b-1.58bit · Hugging Face
요약
Clark Labs가 Sana 1.6B 텍스트-이미지 변환기를 삼진법(ternary) 방식으로 양자화하여 공개했습니다. FP16 대비 모델 크기를 약 8.6배 줄이면서도 유사한 품질을 유지하는 것이 특징입니다.
핵심 포인트
- 삼진법 양자화를 통해 가중치당 약 1.85비트로 압축
- FP16 대비 모델 크기를 3.21GB에서 374MB로 대폭 축소
- 고정밀 레이어(약 5%)를 유지하여 품질 저하 최소화
- Apache-2.0 라이선스로 제공되는 오픈 소스 모델
삼진법(ternary, 가중치당 약 ~1.85 bits)으로 압축된 Sana 1.6B 텍스트-이미지 변환기(text-to-image transformer): FP16보다 8.6배 작으며, FP16에 근접한 품질을 제공합니다.
Footprint (측정치)
| Artifact Size vs FP16 | What it is |
|---|---|
| FP16 transformer 3.21 GB | 1× (100%) reference |
| Clark Air (packed) 374 MB | 8.6× (≈12%) packed ternary (clark-air-sana-1.6b-packed.safetensors) |
| Clark Air (unpacked) 3.21 GB | compatibility this repo's transformer/, dequantized bf16, drop-in diffusers |
측정치 ~1.85 bits/weight → 8.6배 작음 (374 MB packed ÷ 3.21 GB FP16).
정보
Transformer 가중치는 그룹별 스케일(group-wise scales)을 사용하여 삼진법(ternary)으로 양자화(quantized)되었습니다. 소수의 고정밀 테일(high-precision tail, 파라미터의 약 5%, 컨디셔닝(conditioning) 및 프로젝션(projection) 레이어)은 더 높은 정밀도로 유지됩니다.
Base: Sana 1.6B, 512px
라이선스
Apache-2.0 © Clark Labs, Inc.
제출자: /u/pmttyji
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기