arXiv논문2026. 05. 25. 14:24

MASQ: 단계별 다중 정밀도 양자화를 통한 Masked Diffusion 가속화

요약

Masked Diffusion 모델의 계산 중복 문제를 해결하기 위해 하드웨어-소프트웨어 공동 설계 가속기인 MASQ를 제안합니다. 단계별 다중 정밀도 양자화와 타임스텝 인지 스케줄링을 통해 이미지 품질을 유지하며 연산 속도와 에너지 효율을 대폭 향상했습니다.

핵심 포인트

Masked Diffusion의 계산 중복 문제 해결을 위한 MASQ 제안
공간적·의미적 중요도에 따른 단계별 다중 정밀도(MXINT8/4/2) 할당
A100 대비 최대 16.06배 속도 향상 및 에너지 효율 개선 달성
블록 단위 다중 정밀도 엔진 및 마스크 관리 유닛 설계

Masked diffusion (마스크 확산 모델)은 영역 특화 이미지 합성 (region-specific image synthesis)을 가능하게 하지만, 마스크 처리된 영역만 생성이 필요함에도 불구하고 매 타임스텝 (timestep)마다 전체 이미지를 처리해야 하기 때문에 계산 중복 (computational redundancy) 문제를 겪습니다. 이를 해결하기 위해, 우리는 masked diffusion을 위한 하드웨어-소프트웨어 공동 설계 가속기인 MASQ를 소개합니다. 우리의 접근 방식은 공간적 및 의미적 중요도 (spatial and semantic importance)를 동적으로 반영하는 단계별 MXINT8/4/2 정밀도 할당 (stage-wise precision assignment)을 수행하며, 타임스텝 인지 스케줄링 (timestep-aware scheduling) 및 최적화된 비행렬 연산 (non-matrix operations)에 의해 보완됩니다. MASQ는 블록 단위 다중 정밀도 연산 엔진 (block-wise multi-precision compute engine)과 마스크 관리 유닛 (mask management unit)을 특징으로 하여 우리의 접근 방식을 효율적으로 처리합니다. MASQ는 품질을 유지하면서 A100 대비 각각 최대 16.06배 및 5.39배의 속도 향상과 4.18배 및 4.93배의 에너지 효율 향상을 달성했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

MASQ: 단계별 다중 정밀도 양자화를 통한 Masked Diffusion 가속화

요약

핵심 포인트

댓글