본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 01. 11:09

Roofline 모델에서 Ruggedness(거칠기)로: GEMM 성능 지형의 분해 및 평활화

요약

GEMM 연산 시 발생하는 성능의 불연속성인 '거칠기(ruggedness)'를 분석하는 새로운 프레임워크를 제안합니다. Roofline 모델의 한계를 넘어 하드웨어 기질과 워크로드 간의 상호작용을 분석하고, 소프트웨어 최적화를 통해 성능 변동을 줄이는 방법을 다룹니다.

핵심 포인트

  • Roofline 모델로 설명되지 않는 GEMM 성능의 거칠기 현상 규명
  • 하드웨어 기질과 워크로드 상호작용에 의한 성능 변동 분석 프레임워크 제안
  • 동적 타일 선택 및 DP 기반 최적화로 거칠기 70% 감소 및 처리량 30% 향상
  • Intel Battlemage GPU를 통한 실증적 성능 지형 분석 수행

N에서 단 하나의 128-element 스텝 차이만 발생하는 인접한 GEMM 문제들이 동일한 GPU에서 30%나 다른 처리량(throughput)을 보일 수 있습니다. Roofline 분석이나 Peak-FLOPs 직관으로는 보이지 않지만, 모든 비정점(non-peak) 워크로드에서 지배적으로 나타나는 이러한 만연한 성능의 거칠기(performance ruggedness)가 본 논문의 주제입니다. 우리는 Roofline을 보완하는 분석 프레임워크로서 성능 거칠기 분석(performance ruggedness analysis)을 제안합니다. GPU 성능을 스칼라 경계값으로 요약하는 대신, 전체 다차원 성능 표면(multidimensional performance surface)을 연구 대상으로 삼아, 그 질감을 메커니즘에 기인한 구성 요소로 분해하고, 소프트웨어로 제거 가능한 기여분과 하드웨어에 의해 제한되는 기여분을 분리합니다. 이러한 프레임워크는 딥러닝 손실 지형(deep-learning loss landscapes)과 직접적으로 유사합니다. 즉, 연속적인 양(이상적인 시간 2MNK / compute_throughput_peak)이 이산적인 하드웨어 기질(tiles, sub-groups, cache lines, DRAM channels)과의 상호작용으로 인해 거칠어지는 것입니다. 우리는 {128, ..., 4096}^3에 속하는 32,768개의 구성(M, N, K) 스윕(sweep)을 통해 Intel Battlemage (Arc B580, sycl-tla) 상의 BF16 NN (no transpose) GEMM에 이 프레임워크를 적용합니다. 기본 타일 크기(tile size)에서 비정방형 형태인 M=3840, N=2048, K=4096일 때의 피크(peak)는 110.8 TFLOPs이며, 초기 지형의 거칠기(roughness)는 이상적인 값인 2.0에 비해 128-스텝당 16.8 TFLOPs입니다. 2단계 소프트웨어 스택인 (i) 6개 중 최적을 선택하는 동적 타일 선택(best-of-six dynamic tile selection)과 (ii) O(1) 런타임 룩업을 갖춘 새로운 동적 계획법(dynamic-programming) 기반의 패딩 및 분할(padding-and-splitting) 최적화 도구를 통해 거칠기를 70% 감소시키고 평균 처리량을 30% 향상시켰습니다. 크로스 타일(Cross-tile) 실험을 통해 잔여 톱니파(sawtooth) 주기가 소프트웨어 타일 크기에 정확히 비례함을 입증하였으며, 이를 통해 캐시 세트 충돌(cache set conflicts) 가능성을 배제하고 남은 분산을 네 가지 하드웨어 제한 요인(커널당 기본 오버헤드, wave 양자화, DPAS 원자 기하 구조, GDDR6 채널 해시 상호작용)으로 귀인시켰습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0