SOLAR: AI 기반의 광속 성능 분석 (Speed-of-Light Performance Analysis)
요약
SOLAR는 PyTorch 및 JAX 소스 코드로부터 AI 모델의 이론적 최소 실행 시간인 광속(Speed-of-Light) 경계를 자동으로 도출하는 프레임워크입니다. LLM과 결정론적 흐름을 결합하여 검증된 경계를 생성하며, 모델 최적화 및 하드웨어 프로비저닝을 위한 통찰력을 제공합니다.
핵심 포인트
- PyTorch 및 JAX 기반의 자동화된 SOL 경계 도출 프레임워크
- LLM을 활용한 소스 코드의 Affine Loop IR 변환 및 검증
- unfused, fused, cache-aware 등 다중 충실도 분석 지원
- 최적화 기회 식별 및 역 루프라인 하드웨어 프로비저닝 활용 가능
딥러닝 모델이 대상 하드웨어에서 얼마나 빠르게 실행될 수 있으며, 오늘날의 구현은 그 한계로부터 얼마나 떨어져 있을까요? 이러한 질문들은 소프트웨어, 하드웨어 및 알고리즘 최적화의 핵심입니다. 광속 (Speed-of-Light, SOL) 분석은 주어진 아키텍처에서 워크로드의 이론적 최소 실행 시간을 계산함으로써 이에 대한 답을 제공합니다. 하지만 SOL 경계(bounds)를 도출하는 과정은 여전히 수동적이고, 오류가 발생하기 쉬우며, 급격한 모델 개발 속도와 동떨어져 있습니다. 이러한 격차를 줄이기 위해, 우리는 PyTorch 및 JAX 소스 코드로부터 검증된 SOL 경계를 자동으로 도출하는 프레임워크인 SOLAR를 소개합니다. SOLAR는 그 흐름에서 생성적(generative) 구성 요소와 결정론적(deterministic) 구성 요소를 모두 활용합니다. LLM 프론트엔드는 모든 소스 프로그램을 실행 가능한 Affine Loop IR로 변환하며, 이는 출력 비교를 통해 검증됩니다. 결정론적 흐름은 이 IR을 einsum 그래프로 승격(lift)시키며, 분석 백엔드는 결합되지 않은(unfused), 결합된(fused), 그리고 캐시 인지적(cache-aware) SOL 경계를 계산합니다. SOLAR는 포괄적인 연산자(operator) 및 언어 커버리지를 제공하며, 관찰된 SOL 위반이 없는 검증된 경계를 생성하고, 경계를 정교화하고 최적화 통찰력을 드러내는 다중 충실도(multi-fidelity) 분석을 제공합니다. 우리는 KernelBench, JAX/Flax 모델, 그리고 로보틱스 워크로드를 통해 SOLAR를 평가합니다. 이러한 실험은 네 가지 활용 사례를 보여줍니다: 다중 충실도 수준에서의 헤드룸(headroom) 분석, 최적화 기회 식별, 교차 플랫폼 탐색, 그리고 역 루프라인(inverse-roofline) 하드웨어 프로비저닝입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기