I finetuned Qwen3-1.7B to imitate original Z-Image text encoder. 21% less VRAM
요약
이 기술 기사는 Qwen3-1.7B 모델을 파인튜닝하여 더 큰 Qwen3-4B의 텍스트 인코더 기능을 모방하는 방법을 제시합니다. 이 접근 방식은 DiT(Diffusion Transformer)에 전달되는 숨겨진 상태를 재구성함으로써, 기존 대비 VRAM 사용량을 최대 21%까지 줄일 수 있습니다. 특히 양자화가 적용될 경우 메모리 효율성이 더욱 높아질 것으로 기대됩니다.
핵심 포인트
- Qwen3-1.7B 모델을 사용하여 Qwen3-4B의 텍스트 인코더 기능을 모방하는 파인튜닝 기법을 구현했습니다.
- 이 방법은 DiT에 전달되는 숨겨진 상태를 재구성하여 메모리 효율성을 높입니다.
- 실험 결과, 기존 4B 모델 대비 VRAM 사용량을 약 21% (4.40 GB) 절감할 수 있었습니다.
- 제공된 어댑터는 양자화(quantization)가 적용될 경우 더욱 높은 메모리 효율성을 가질 것으로 예상됩니다.
첫 번째 이미지는 원본 파이프라인에서, 두 번째는 텍스트 인코더가 교체된 파이프라인에서 생성되었습니다.
저는 Qwen3-1.7B 를 작은 어댑터와 함께 finetune 하여 Qwen3-4B 를 모방했습니다. 아이디어는 간단합니다: Qwen3-4B 의 hidden states 를 재구성하여 DiT 에 전달하는 것입니다.
저는 fp16 을 사용하여 테스트했습니다.
| Metric | Original (4B) | Student (1.7B) | Savings |
|---|---|---|---|
| Weight VRAM | 20.70 GB | 16.30 GB | 4.40 GB (21%) |
이 특정 모델에 대한 양자화 버전은 아직 제공하지 않았습니다. 그러나 기존 ZImage quants 는 6GB (Q3_K_S) 에서 12GB (Q8_0) 까지 다양하므로, 이 버전은 양자화되면 더욱 VRAM 효율적일 것입니다.
Repository:
https://huggingface.co/SearchingMan/Z-Image-Turbo-student-adapter
AI 자동 생성 콘텐츠
본 콘텐츠는 r/StableDiffusion의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기