OrbitQuant: 이미지 및 비디오 확산 트랜스포머 (Diffusion Transformers)를 위한 데이터 불가지론적 양자화
요약
OrbitQuant는 이미지 및 비디오 확산 트랜스포머(DiT)를 위한 데이터 불가지론적 양자화 기술을 제안합니다. RPBH 회전을 통해 입력 데이터에 관계없이 안정적인 양자화를 수행하며, 별도의 교정 데이터 없이도 최첨단 PTQ 성능을 달성합니다.
핵심 포인트
- 데이터 불가지론적 방식의 가중치-활성화 양자화 제안
- RPBH 회전을 통해 타임스텝 및 프롬프트 변화에 대응
- FLUX.1, Wan 2.1 등 최신 모델에서 SOTA 성능 기록
- 이미지 모델을 비디오 모델로 모달리티 튜닝 없이 전이 가능
- 생성 품질을 유지하며 W2A4 수준의 저비트 양자화 구현
확산 트랜스포머 (Diffusion Transformers, DiTs)는 최첨단 이미지 및 비디오 생성을 달성하지만, 다단계 샘플링 (multi-step sampling)과 증가하는 파라미터 수로 인해 추론 비용이 많이 듭니다. 사후 훈련 양자화 (Post-training quantization, PTQ)는 자연스러운 해결책이지만, DiT의 활성화 값 (activations)은 타임스텝 (timesteps), 프롬프트 (prompts), 가이드 분기 (guidance branches)에 따라 변화하므로, 기존 방법들은 새로운 체크포인트나 모달리티 (modality)마다 교정 데이터 (calibration data)를 다시 맞추어야 합니다. 우리는 정규화되고 회전된 기저 (normalized, rotated basis)에서 양자화를 수행함으로써 범위 추정 (range estimation)을 우회하는 데이터 불가지론적 (data-agnostic) 가중치-활성화 양자화기인 OrbitQuant를 제시합니다. 이 기저에서, 무작위로 치환된 블록-하다마르 (randomized permuted block-Hadamard, RPBH) 회전은 입력과 관계없이 각 좌표를 하나의 고정된 알려진 주변 분포 (marginal) 근처로 집중시키므로, 단일 Lloyd-Max 코드북 (codebook)이 주어진 입력 차원의 모든 타임스텝, 프롬프트 및 레이어에 적용될 수 있습니다. 우리는 동일한 양자화기를 오프라인에서 가중치 행 (weight rows)에 확장하여, 회전을 가중치에 흡수함으로써 각 선형 레이어 (linear layer) 내부에서 회전이 상쇄되고 런타임에는 활성화 값에 대한 순방향 회전만 남도록 합니다. 동일한 레시피는 모달리티별 튜닝 없이 이미지에서 비디오로 전이됩니다. FLUX.1, Z-Image-Turbo, Wan 2.1, 그리고 CogVideoX에 걸쳐, 이는 여러 저비트 (low-bit) 설정에서 PTQ의 최첨단 (state of the art) 성능을 기록합니다. 또한 이미지 확산 트랜스포머의 PTQ를 사용 가능한 생성 품질을 유지하며 W2A4 수준까지 끌어올립니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기