arXiv논문2026. 06. 02. 13:44

정규 활성화 집중도: 확산 모델 아키텍처 전반에 걸친 컬럼 수준 출력 희소성 특성 분석

요약

확산 모델의 활성화 희소성이 하드웨어의 컬럼 단위 처리 방식과 충돌하는 문제를 분석한 연구입니다. 요소 수준의 희소성이 실제 하드웨어 효율성을 과장할 수 있음을 밝히고, 워크로드별 컬럼 수준 희소성 특성을 체계적으로 제시합니다.

핵심 포인트

요소 수준 희소성은 하드웨어 활용 가능성을 최대 78%p 과장함
UNet+Transformer는 활성화 집중 현상을, DiT는 분산 현상을 보임
모션 모델은 특정 임계값에서 급격한 정확도 저하(accuracy cliff) 발생
메모리 레이아웃 최적화를 위해 컬럼 수준의 특성 분석이 필수적임

최근의 확산 가속기(diffusion accelerators)들은 0에 가까운 GELU 출력값을 건너뜀으로써 활성화 희소성(activation sparsity)을 활용하며, 5285%의 요소 수준 희소성(element-level sparsity)을 보고하고 있습니다. 그러나 시스톨릭 어레이(systolic-array) 하드웨어는 활성화를 컬럼 단위(column granularity)로 처리하며, 이 경우 단 하나의 비제로(non-zero) 요소만 있어도 전체 컬럼을 계산해야 합니다. 본 연구에서는 세 가지 워크로드 그룹과 네 가지 모달리티(modalities)에 걸친 7개의 확산 워크로드에 대해 최초로 체계적인 컬럼 수준 희소성 특성 분석을 제시합니다. 우리의 측정 결과에 따르면, 요소 수준 희소성은 하드웨어에서 활용 가능한 희소성을 최대 78%포인트까지 과장하고 있으며, 세 가지 분류 체계(taxonomy)를 드러냅니다. UNet+transformer 워크로드는 워크로드에 따라 최대 30.6%의 사이클 감소를 동반하는 활성화 집중(activation concentration) 현상을 보입니다. 순수 transformer 기반의 DiT는 분산(dispersion)을 보여 12.4%의 감소를 나타냅니다. 모션/댄스(Motion/dance) transformer 워크로드는 완만한 감소부터 MLD의 경우 극단적인 토큰 차원(token dimension) 및 확장 비율(expansion ratio)로 인해 50.8%에 이르는 감소까지 나타납니다. GDDR6 기반 가속기에서의 사이클 수준 시뮬레이션은 메모리 스톨(memory stalls)이 전체 사이클의 최대 8489%를 차지하며, 레이아웃 민감도(layout sensitivity)가 프로파일링 기반의 분류 체계를 따른다는 것을 확인해 줍니다. 5개의 임계값(thresholds)에 대한 전체 정확도 스윕(accuracy sweep) 결과, UNet+transformer 워크로드는 정확도가 점진적으로 저하되는 반면, 모션 모델은 주요 동작 지점(primary operating point)과 다음 임계값 사이에서 정확도 절벽(accuracy cliff) 현상을 보입니다. 우리의 특성 분석은 워크로드 그룹과 모델 차원이 결합하여 컬럼 수준의 메모리 레이아웃 최적화가 유익할지 여부를 결정하며, 요소 수준 희소성만으로는 이를 예측하기에 불충분함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

정규 활성화 집중도: 확산 모델 아키텍처 전반에 걸친 컬럼 수준 출력 희소성 특성 분석

요약

핵심 포인트

댓글