본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 26. 11:38

DiSC: 해시 기반 분산을 통한 희소성 및 캐시된 토큰 재사용 활용 기반 확산 모델(Diffusion Models)의 해상도 확장 가능한

요약

Transformer 기반 확산 모델의 연산 오버헤드를 줄이기 위해 해시 기반 분산 기술을 활용한 DiSC를 제안합니다. CTR과 ST 알고리즘을 통해 토큰 재사용 및 희소성을 극대화하며, 하드웨어 가속기 설계를 통해 고해상도 생성 효율을 높였습니다.

핵심 포인트

  • 캐시된 토큰 재사용(CTR)을 통한 중복 연산 제거
  • 희소성 마스크 재사용(ST)으로 어텐션 연산 최적화
  • 해시 기반 분산을 활용한 하드웨어 효율성 극대화
  • NVIDIA H100 대비 최대 3.5배 속도 향상 및 에너지 절감

Transformer 기반 확산 모델(Diffusion Models)은 우수한 확장성(Scalability)과 성능을 제공하지만, 반복적인 특성과 고해상도에서의 셀프 어텐션(Self-attention)이 갖는 이차 복잡도(Quadratic complexity)로 인해 높은 연산 오버헤드(Computational overhead)를 겪습니다. 본 논문에서는 해상도 확장이 가능하고 희소성(Sparsity)을 인식하는 하드웨어 가속기인 DiSC를 제안합니다. 소프트웨어 수준에서 DiSC는 두 가지 알고리즘인 캐시된 토큰 재사용(Cached Token Reuse, CTR)과 희소성 마스크 재사용을 통한 소프트맥스 임계값 설정(Softmax Thresholding with Sparsity Mask Reuse, ST)을 도입합니다. CTR은 단계(Step) 전반에 걸친 입력 잠재 차이(Input latent difference)의 공간적 변화를 토큰 수준의 재사용 결정으로 변환하는 메커니즘을 도입하여, 중복된 토큰 연산을 효과적으로 제거합니다. ST는 생성된 희소성 패턴을 재사용함으로써 어텐션 연산에 희소성을 유도하며, 시간적 유사성(Temporal similarity)을 활용하여 비용이 많이 드는 예측 오버헤드(Prediction overhead)를 우회합니다. 이 알고리즘들은 결합되어 해상도 확장이 가능한 연산 이점을 제공하며, 적절한 희소성과 하이브리드 밀집-희소(Hybrid dense-sparse) 워크로드를 생성합니다. 이를 효율적으로 활용하기 위해, 우리는 특화된 하드웨어 아키텍처와 통합 데이터플로우(Unified dataflow)를 설계했습니다. 이 아키텍처는 전용 희소성 처리 구성 요소를 피하는 대신, 온칩 메모리 뱅크(On-chip memory banks)에 대한 해시 기반 분산(Hash-based distribution)을 통해 DiSC가 기존 연산 엔진을 희소 연산에 재사용할 수 있도록 하여, 최소한의 하드웨어 오버헤드로 유도된 희소성을 효율적으로 활용합니다. DiT 및 PixArt-Sigma에서 평가한 결과, DiSC는 NVIDIA A100 및 H100 GPU 대비 각각 3.47-4.74배 및 2.48-3.50배의 속도 향상을 달성하였으며, 에너지 절감률은 46.4%에서 68.1%에 달했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0