I finetuned Qwen3-1.7B to imitate original Z-Image text encoder. 21% less VRAM

요약

이 기술 기사는 Qwen3-1.7B 모델을 파인튜닝하여 더 큰 Qwen3-4B의 텍스트 인코더 기능을 모방하는 방법을 제시합니다. 이 접근 방식은 DiT(Diffusion Transformer)에 전달되는 숨겨진 상태를 재구성함으로써, 기존 대비 VRAM 사용량을 최대 21%까지 줄일 수 있습니다. 특히 양자화가 적용될 경우 메모리 효율성이 더욱 높아질 것으로 기대됩니다.

핵심 포인트

Qwen3-1.7B 모델을 사용하여 Qwen3-4B의 텍스트 인코더 기능을 모방하는 파인튜닝 기법을 구현했습니다.
이 방법은 DiT에 전달되는 숨겨진 상태를 재구성하여 메모리 효율성을 높입니다.
실험 결과, 기존 4B 모델 대비 VRAM 사용량을 약 21% (4.40 GB) 절감할 수 있었습니다.
제공된 어댑터는 양자화(quantization)가 적용될 경우 더욱 높은 메모리 효율성을 가질 것으로 예상됩니다.

첫 번째 이미지는 원본 파이프라인에서, 두 번째는 텍스트 인코더가 교체된 파이프라인에서 생성되었습니다.

저는 Qwen3-1.7B 를 작은 어댑터와 함께 finetune 하여 Qwen3-4B 를 모방했습니다. 아이디어는 간단합니다: Qwen3-4B 의 hidden states 를 재구성하여 DiT 에 전달하는 것입니다.

저는 fp16 을 사용하여 테스트했습니다.

Metric	Original (4B)	Student (1.7B)	Savings
Weight VRAM	20.70 GB	16.30 GB	4.40 GB (21%)

이 특정 모델에 대한 양자화 버전은 아직 제공하지 않았습니다. 그러나 기존 ZImage quants 는 6GB (Q3_K_S) 에서 12GB (Q8_0) 까지 다양하므로, 이 버전은 양자화되면 더욱 VRAM 효율적일 것입니다.

Repository:
https://huggingface.co/SearchingMan/Z-Image-Turbo-student-adapter

AI 자동 생성 콘텐츠

원문 바로가기

I finetuned Qwen3-1.7B to imitate original Z-Image text encoder. 21% less VRAM

요약

핵심 포인트

댓글