GPU Forecasters: 커널 실행 시간 최적화를 위한 선택적 대리 모델로서의 언어 모델
요약
GPU 커널 최적화 과정에서 발생하는 반복적인 하드웨어 측정 비용을 줄이기 위해 LLM을 선택적 대리 모델로 활용하는 연구를 소개합니다. LLM이 커널 성능을 예측하고 스스로의 불확실성을 판단함으로써, 제한된 GPU 예산 내에서 더 효율적인 커널 탐색을 가능하게 합니다.
핵심 포인트
- LLM을 GPU 커널 실행 시간 예측을 위한 대리 모델로 활용
- 강화학습을 통해 예측 정확도 및 신뢰도 보정(Calibration) 개선
- 동일한 GPU 예산 대비 더 많은 후보군 탐색 및 최적화 성능 향상
- LLM의 역할을 커널 생성기에서 가상 GPU 모델로 확장
GPU 커널 (GPU kernels)은 현대 딥러닝의 핵심적인 작업 단위이며, 이를 (진화적 탐색 (evolutionary search) 또는 코딩 에이전트 (coding agents)를 통해) 최적화하려면 일반적으로 대상 하드웨어에서의 반복적인 측정이 필요합니다. 이러한 측정은 커널 탐색에 필요한 정답 신호 (ground-truth signal)를 제공하지만, 각 커널의 평가마다 컴파일과 GPU에서의 반복적인 실행이 필요하기 때문에 비용이 많이 듭니다. LLM 추론 (LLM inference)의 개선으로 새로운 커널을 작성하는 비용이 줄어들고 LLM 기반 탐색이 대규모 탐색 예산으로 확장됨에 따라, 온디바이스 평가 (on-device evaluation)가 병목 현상이 되고 있습니다. 이를 해결하기 위해, 본 연구에서는 LLM이 제안된 커널의 성능을 예측함으로써 커널 평가를 위한 선택적 GPU 대리 모델 (selective GPU surrogates) 역할을 어떻게 수행할 수 있는지 연구합니다. 유용한 대리 모델은 정확해야 하며, 자신이 언제 틀릴 수 있는지 알고 GPU에 판단을 미루는 선택성 (selective)을 갖추어야 합니다. 대리 모델을 평가하기 위해, 우리는 예측이 정확한지, 보정되었는지 (calibrated), 그리고 제한된 GPU 측정 예산 하에서 빠른 커널을 찾아내는 데 실질적으로 유용한지를 측정합니다. 다음으로, 강화학습 (reinforcement learning)이 예측 정확도와 신뢰도 보정 (confidence calibration)을 개선할 수 있는지 연구합니다. 우리의 실험은 LLM이 상대적인 커널 성능을 정확하게 예측할 수 있으며, 강화학습을 통해 그 유용성을 향상시킬 수 있음을 보여줍니다. 커널 탐색 내부에서 사용될 때, 이 대리 모델은 동일한 GPU 평가 예산 하에서 탐색이 몇 배 더 많은 후보를 고려할 수 있게 하며, 이는 동일한 예산의 베이스라인보다 더 빠른 커널을 찾는 결과로 이어집니다. 이러한 결과는 LLM이 단순히 탐색을 위한 커널 생성기 (kernel generators)로서뿐만 아니라, GPU의 가상 모델 (virtual models)로서 작동함으로써 커널 최적화에서 더 폭넓은 역할을 수행할 수 있음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기