arXiv논문2026. 05. 08. 13:45

DICE: Enabling Efficient General-Purpose SIMT Execution with Statically

요약

본 논문은 기존 SIMT 기반 GPU의 높은 레지스터 파일(RF) 액세스 및 제어 로직 오버헤드를 해결하기 위해 DICE라는 새로운 아키텍처를 제안합니다. DICE는 SIMD 백엔드를 최소 오버헤드의 정적 스케줄링 CGRA(Coarse-Grained Reconfigurable Arrays)로 대체하여, 활성 스레드를 피플라인 방식으로 직접 디스패치하고 데이터 흐름을 처리 요소(PE) 간에 직접 발생시켜 RF 액세스를 크게 줄입니다. 이 아키텍처는 동적 의존성을 정적으로 관리하는 'p-graph' 컴파일 방식을 사용하며, 추가적인 최적화들(더블 버퍼링, 언롤링, TMCU 등)을 통해 기존 GPU 대비 높은 에너지 효율과 전력 감소를 달성함을 입증했습니다.

핵심 포인트

DICE는 SIMT 기반 GPU의 RF 액세스 및 제어 로직 오버헤드를 줄이기 위해 CGRA 아키텍처를 도입합니다.
활성 스레드는 피플라인 방식으로 직접 디스패치되며, 데이터 흐름은 PE 간에 직접 발생하여 중간 값의 레지스터 파일 접근을 최소화합니다.
동적 의존성을 정적으로 처리하기 위해 프로그램을 'p-graph'로 컴파일하는 새로운 방식을 사용합니다.
실험 결과, DICE는 기존 GPU 대비 평균 68%의 RF 액세스 감소와 1.77~1.90배의 동적 에너지 효율 향상을 달성했습니다.

GPU 는 단일 명령어, 다중 스레드 (SIMT) 프로그래밍 모델을 통해 대규모 병렬 컴퓨팅을 지배하지만, 그 underlying 단일 명령어, 다중 데이터 (SIMD) 실행은 빈번한 레지스터 파일 (RF) 액세스와 복잡한 제어 로직에서 상당한 에너지 오버헤드를 발생시킵니다. 우리는 이러한 비효율성을 해결하기 위해 SIMD 백엔드를 최소 오버헤드의 정적 스케줄링 CGRA(Coarse-Grained Reconfigurable Arrays)로 대체하는 새로운 아키텍처인 DICE 를 제시합니다. SIMD 유닛이 스레드 워프를 동기화하여 실행하는 것과 달리, DICE 는 CGRA 직판에 피플라인 방식으로 활성 스레드를 디스패치하며, 데이터 흐름은 처리 요소 (PE) 간에 직접적으로 발생하여 중간 값의 RF 액세스를 줄입니다. 런타임 동역학을 가진 연산 (예: 변수 지연 메모리 로드 및 데이터 의존 제어 흐름) 을 처리하면서 정적 스케줄링을 유지하기 위해, DICE 는 동적 의존성 엣지를 별도의 CGRA 구성으로 분할하여 프로그램을 "p-graph"로 컴파일합니다. DICE 는 추가적으로 다음과 같은 주요 최적화를 도입합니다: 재구성 지연을 숨기기 위한 더블 버퍼드 구성 메모리, 자원 활용도를 향상시키기 위한 컴파일 타임 p-graph 언롤링, 그리고 연속적인 피플라인 스레드의 메모리 요청을 병합하기 위한 시간적 메모리 코일싱 유닛 (TMCU). Rodinia 벤치마크를 Accel-sim 에서 평가한 결과, DICE 는 평균적으로 레지스터 파일 액세스를 68% 줄였습니다. 동등한 컴퓨팅 및 메모리 자원으로, DICE 의 CGRA 프로세서 (CP) 는 모델링된 NVIDIA Turing 스트리밍 멀티프로세서 (SM) 대비 기하평균 1.77-1.90x 동적 에너지 효율과 42.0%-45.9% 평균 전력 감소를 달성했습니다. 전체 DICE 시스템은 모델링된 Turing GPU 베이스라인과 유사한 성능을 달성했습니다. DICE 는 공간 피플라인 실행이 성능을 희생하지 않으면서 상당한 에너지 절감 효과를 제공할 수 있음을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

DICE: Enabling Efficient General-Purpose SIMT Execution with Statically

요약

핵심 포인트

댓글