arXiv논문2026. 05. 22. 11:16

ORBIS: 비디오 확산 모델 가속을 위한 분포 인식 매칭 기반 출력 가이드 토큰 감소 기술

요약

비디오 Diffusion Transformer(DiT)의 계산 비용을 줄이기 위해 제안된 ORBIS 기술을 소개합니다. 분포 인식 매칭(DATM) 알고리즘과 SW-HW 공동 설계 가속기를 통해 토큰 감소율을 높이고 에너지 효율을 극대화했습니다.

핵심 포인트

비디오 DiT의 3D 시공간 어텐션 계산 비용 문제 해결
분포 인식 토큰 매칭(DATM)을 통한 정확한 토큰 유사도 확보
딥 파이프라인 하드웨어 설계를 통한 지연 시간 은닉
NVIDIA A100 대비 최대 4.5배 속도 향상 및 79.3% 에너지 절감

Diffusion Transformer (DiT)는 고품질 이미지 및 비디오 생성을 위한 강력한 모델 아키텍처로 부상했습니다. 비디오 DiT의 경우, 3D 시공간 어텐션 (3D Spatio-Temporal Attention)은 프레임 수에 비례하여 토큰 길이를 증가시키며, 이는 계산 비용을 급격히 상승시킵니다. 토큰 감소 (Token reduction) 방법들은 공간적 중복성 (Spatial redundancy)을 활용하여 이 비용을 완화하지만, 기존 방식들은 부정확한 유사도 추정 및 경량 매칭 알고리즘에 의존하여 매칭 품질이 떨어지고 가속 효과도 미미합니다. 이러한 한계를 극복하기 위해, 우리는 비디오 DiT를 위한 SW-HW 공동 설계 가속기인 ORBIS를 제안합니다. ORBIS는 이전 타임스텝 (Timestep)의 출력 활성화 (Output activation)를 활용하여 더욱 정확한 토큰 간 유사도 (Inter-token similarity)를 확보함으로써, 매칭 품질을 실질적으로 개선하고 더 높은 토큰 감소율을 가능하게 합니다. 나아가, 우리는 글로벌 토큰 분포를 포착하고 추가적인 이득을 위해 토큰 쌍 손실 (Token-pair loss)을 명시적으로 최소화하는 분포 인식 토큰 매칭 (Distribution-Aware Token Matching, DATM) 알고리즘을 도입합니다. DATM의 지연 시간 (Latency)을 완전히 숨기기 위해, 우리는 특화된 딥 파이프라인 (Deeply pipelined) 하드웨어를 설계하였으며, 양자화 (Quantization)를 통해 하드웨어 비용을 최소화하여 무시할 만한 정확도 손실만으로 전체 면적의 2.4%만을 차지하도록 했습니다. 광범위한 실험 결과, ORBIS는 최신 기술인 AsymRnR보다 약 2배 높은 토큰 감소율을 달성하는 동시에, NVIDIA A100 GPU 대비 최대 4.5배의 속도 향상과 79.3%의 에너지 절감을 실현함을 보여주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

ORBIS: 비디오 확산 모델 가속을 위한 분포 인식 매칭 기반 출력 가이드 토큰 감소 기술

요약

핵심 포인트

댓글