AgentCompile: 직접적인 CUDA 추론을 위한 LLM 가이드 컴파일러
요약
AgentCompile은 LLM의 의미론적 분석을 활용하여 CUDA 추론을 최적화하는 가이드 컴파일러입니다. LLM이 제안한 메타데이터를 바탕으로 최적의 CUDA 구현체를 선택하며, PyTorch 대비 최대 5.66배의 속도 향상을 입증했습니다.
핵심 포인트
- LLM을 추론 최적화를 위한 가이드 메타데이터 생성 도구로 활용
- 의미론적 레이블 및 파라미터 힌트를 통한 CUDA 구현체 우선순위 지정
- Qwen 및 Llama 모델 워크로드에서 PyTorch 대비 최대 5.66배 성능 향상
- 경험적 검증 및 하드웨어 제약 조건을 통한 자동화된 최적화 프로세스
Transformer 추론은 점점 더 특화된 컴파일러(compiler) 및 런타임(runtime) 지원에 의존하고 있지만, 실제 모델 그래프(model graphs)는 여전히 어떤 영역을 특화(specializing)할 가치가 있는지, 그리고 어떤 CUDA 구현 제품군(implementation families)이 타당한지에 대한 의미론적 결정(semantic decisions)을 필요로 합니다. 우리는 LLM 출력을 오직 권고용 검색 메타데이터(advisory search metadata)로만 사용하는 LLM 가이드 CUDA 추론 컴파일러인 AgentCompile을 제시합니다. 컴파일러에서 도출된 영역 요약(region summaries)과 제한된 후보 공간(bounded candidate spaces)이 주어지면, LLM은 의미론적 레이블(semantic labels), 후보 우선순위(candidate priorities), 파라미터 힌트(parameter hints), 그리고 위험 주석(risk annotations)을 제안합니다. 컴파일러는 템플릿(templates)을 통해 CUDA 후보들을 구체화하고, 인터페이스(interface) 및 하드웨어 제약 조건을 확인하며, 후보들을 경험적으로 검증하고, 측정된 지연 시간(latency)에 따라 구현체를 선택하며, 특화(specialization)가 지원되지 않거나 수익성이 없을 경우 폴백(fallback)합니다. 엔드 투 엔드(end-to-end) 자기회귀 생성(autoregressive generation)에서 AgentCompile은 5가지 대표적인 워크로드(workloads)에 대해 Qwen3-1.7B, Qwen3-4B, Llama-3.2-1B-Instruct에서 각각 PyTorch eager 대비 평균 5.66배, 4.05배, 4.26배의 속도 향상을 달성했습니다. 우리는 이 프로젝트를 오픈 소스로 공개할 예정입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.PL (Programming Languages)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기