Diffusion Transformers를 위한 사후 학습 프루닝 (Post-Training Pruning)

Diffusion Transformers (DiTs)는 이미지 생성에서 인상적인 성능을 보여주었으나, 상당한 계산 오버헤드와 자원 소모라는 문제를 안고 있습니다. 사후 학습 프루닝 (Post-training pruning)은 유망한 해결책을 제시하지만, DiTs의 독특한 아키텍처 설계와 파라미터 분포로 인해 기존의 프루닝 방법들을 적용할 수 없으며, 이는 심각한 성능 저하로 이어집니다. 구체적으로, 일련의 근사치를 통해 지표를 도출하는 LLM용 기존 방법들은 중요도 지표 (saliency metric)에서 가중치의 상대적 기여도를 증폭시킵니다. 또한, DiTs의 가중치는 LLMs의 가중치보다 현저히 큰 크기를 나타냅니다. 더욱이, 기존의 프루닝 입도 (pruning granularity)는 모델 구조의 변화를 간과하고 있습니다. 본 논문에서는 맞춤형 중요도 기준 (saliency criteria)과 프루닝 입도를 도입하여 프루닝 성능을 향상시키는 DiT-Pruning을 제안합니다. 우리는 에너지 기반 관점에서 가중치와 활성화 (activations)의 기여도를 균형 있게 맞추는 새로운 지표를 설계하여, 중요한 요소를 더욱 효과적으로 식별할 수 있도록 합니다. 또한, 우리는 2차원 가중치 공간에서 뚜렷한 클러스터링 패턴을 관찰했습니다. 이에 따라, 우리는 클러스터링을 인식하는 프루닝 입도 (clustering-aware pruning granularity)를 채택하여 효과적인 희소 할당 (sparse allocation)을 가능하게 합니다. 다양한 DiTs에 대한 광범위한 평가 결과, 우리의 방법은 특히 높은 희소도 (high sparsity) 환경에서도 이미지 품질을 일관되게 보존함을 보여줍니다. MJHQ 데이터셋에서 512x512 해상도의 FLUX.1-dev를 대상으로 테스트했을 때, DiT-Pruning은 50% 희소도에서 CLIP 점수 손실이 0.001에 불과하여 최근의 프루닝 방법들을 압도적으로 능가했습니다.

Insights

Diffusion Transformers를 위한 사후 학습 프루닝 (Post-Training Pruning)

요약

핵심 포인트

댓글

예측: Nike, 12개월 이내에 Dow Jones Industrial Average에서 퇴출되고 2개의 소비자 중심 거대 기업 중 하나로

Tesla의 지난 분기 판매량 증가, Musk에 대한 반발이 정점을 지났다는 신호일 가능성

강세장 편향: 고용 데이터 및 AI 열풍이 주식 시장을 견인

vLLM 서빙 최적화: AWQ, GPTQ, & GGUF | SLM Playbook

예측: Nike, 12개월 이내에 Dow Jones Industrial Average에서 퇴출되고 2개의 소비자 중심 거대 기업 중 하나로

Tesla의 지난 분기 판매량 증가, Musk에 대한 반발이 정점을 지났다는 신호일 가능성

강세장 편향: 고용 데이터 및 AI 열풍이 주식 시장을 견인

vLLM 서빙 최적화: AWQ, GPTQ, & GGUF | SLM Playbook