본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 03. 11:32

Qwen-Image-Flash: 목적 함수 설계를 넘어

요약

본 연구는 Few-step distillation을 가속화하기 위해 목적 함수를 넘어 학습 레시피의 중요성을 재조명합니다. Qwen-Image-2.0을 사례로 데이터 구성, 교사 가이드, 태스크 혼합이 모델 성능에 미치는 영향을 체계적으로 분석하여 Qwen-Image-Flash를 개발했습니다.

핵심 포인트

  • Few-step distillation에서 학습 레시피의 결정적 역할 강조
  • 데이터 구성, 교사 가이드, 태스크 혼합의 세 가지 핵심 요소 분석
  • Qwen-Image-Flash 개발을 위한 실증적 분석 결과 제시
  • 효과적인 증류를 위해 통합된 학습 파이프라인 설계 필요성 시사

Few-step distillation (몇 단계 증류)은 고급 시각 생성 모델 (visual generative models)을 가속화하기 위한 효과적인 전략이 되었으나, 기존 연구들은 주로 distillation objectives (증류 목적 함수)에 집중해 왔습니다. 본 연구에서는 상호 보완적인 관점에서 few-step distillation을 재검토하며, 학생 모델 (student)의 성능을 결정적으로 형성하는 training recipe (학습 레시피)에 초점을 맞춥니다. Qwen-Image-2.0을 대표적인 사례로 사용하여, 우리는 통합된 text-to-image generation (텍스트-이미지 생성) 및 instruction-guided image editing (지시어 기반 이미지 편집) 증류에서의 세 가지 요소인 data composition (데이터 구성), teacher guidance (교사 가이드), 그리고 task mixture (태스크 혼합)를 체계적으로 조사합니다. 우리의 실증적 분석은 몇 가지 명확하지 않은 동작들을 드러내며, 이는 Qwen-Image-Flash의 개발로 이어졌습니다. 전반적으로, 우리의 결과는 효과적인 few-step distillation을 위해서는 신중하게 설계된 objectives (목적 함수)뿐만 아니라, 더 넓은 training pipeline (학습 파이프라인)의 원칙 있는 조직화가 필요함을 시사합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0