arXiv논문2026. 06. 01. 11:09

Roofline 모델에서 Ruggedness(거칠기)로: GEMM 성능 지형의 분해 및 평활화

요약

GEMM 연산 시 발생하는 성능의 불연속성인 '거칠기(ruggedness)'를 분석하는 새로운 프레임워크를 제안합니다. Roofline 모델의 한계를 넘어 하드웨어 기질과 워크로드 간의 상호작용을 분석하고, 소프트웨어 최적화를 통해 성능 변동을 줄이는 방법을 다룹니다.

핵심 포인트

Roofline 모델로 설명되지 않는 GEMM 성능의 거칠기 현상 규명
하드웨어 기질과 워크로드 상호작용에 의한 성능 변동 분석 프레임워크 제안
동적 타일 선택 및 DP 기반 최적화로 거칠기 70% 감소 및 처리량 30% 향상
Intel Battlemage GPU를 통한 실증적 성능 지형 분석 수행

N에서 단 하나의 128-element 스텝 차이만 발생하는 인접한 GEMM 문제들이 동일한 GPU에서 30%나 다른 처리량(throughput)을 보일 수 있습니다. Roofline 분석이나 Peak-FLOPs 직관으로는 보이지 않지만, 모든 비정점(non-peak) 워크로드에서 지배적으로 나타나는 이러한 만연한 성능의 거칠기(performance ruggedness)가 본 논문의 주제입니다. 우리는 Roofline을 보완하는 분석 프레임워크로서 성능 거칠기 분석(performance ruggedness analysis)을 제안합니다. GPU 성능을 스칼라 경계값으로 요약하는 대신, 전체 다차원 성능 표면(multidimensional performance surface)을 연구 대상으로 삼아, 그 질감을 메커니즘에 기인한 구성 요소로 분해하고, 소프트웨어로 제거 가능한 기여분과 하드웨어에 의해 제한되는 기여분을 분리합니다. 이러한 프레임워크는 딥러닝 손실 지형(deep-learning loss landscapes)과 직접적으로 유사합니다. 즉, 연속적인 양(이상적인 시간 2MNK / compute_throughput_peak)이 이산적인 하드웨어 기질(tiles, sub-groups, cache lines, DRAM channels)과의 상호작용으로 인해 거칠어지는 것입니다. 우리는 {128, ..., 4096}^3에 속하는 32,768개의 구성(M, N, K) 스윕(sweep)을 통해 Intel Battlemage (Arc B580, sycl-tla) 상의 BF16 NN (no transpose) GEMM에 이 프레임워크를 적용합니다. 기본 타일 크기(tile size)에서 비정방형 형태인 M=3840, N=2048, K=4096일 때의 피크(peak)는 110.8 TFLOPs이며, 초기 지형의 거칠기(roughness)는 이상적인 값인 2.0에 비해 128-스텝당 16.8 TFLOPs입니다. 2단계 소프트웨어 스택인 (i) 6개 중 최적을 선택하는 동적 타일 선택(best-of-six dynamic tile selection)과 (ii) O(1) 런타임 룩업을 갖춘 새로운 동적 계획법(dynamic-programming) 기반의 패딩 및 분할(padding-and-splitting) 최적화 도구를 통해 거칠기를 70% 감소시키고 평균 처리량을 30% 향상시켰습니다. 크로스 타일(Cross-tile) 실험을 통해 잔여 톱니파(sawtooth) 주기가 소프트웨어 타일 크기에 정확히 비례함을 입증하였으며, 이를 통해 캐시 세트 충돌(cache set conflicts) 가능성을 배제하고 남은 분산을 네 가지 하드웨어 제한 요인(커널당 기본 오버헤드, wave 양자화, DPAS 원자 기하 구조, GDDR6 채널 해시 상호작용)으로 귀인시켰습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Roofline 모델에서 Ruggedness(거칠기)로: GEMM 성능 지형의 분해 및 평활화

요약

핵심 포인트

댓글