arXiv논문2026. 05. 07. 17:55

CuBridge: LLM 기반의 고품질 Attention 커널 이해 및 재구성 프레임워크

요약

CuBridge는 다양한 attention 변형을 지원하는 고품질의 CUDA attention 커널을 재구성하기 위한 새로운 프레임워크입니다. 이 프레임워크는 전문가가 작성한 CUDA 코드를 구조화된 lift-transfer-lower 워크플로우를 통해 추상화하고, 실행 가능한 중간 표현(IR)으로 승격시킵니다. 사용자가 PyTorch 사양만 제공하면 CuBridge가 최적화되고 정확성이 보장되는 CUDA 코드를 자동으로 생성하여, 기존 방법들의 성능 및 유연성 문제를 해결합니다.

핵심 포인트

CuBridge는 다양한 attention 변형을 지원하는 고품질의 CUDA 커널 생성을 목표로 합니다.
전문가 작성 커널을 'lift-transfer-lower' 워크플로우를 통해 구조화된 중간 표현(IR)으로 승격시킵니다.
사용자는 PyTorch 사양만 제공하면 되며, CuBridge가 최적화되고 검증된 CUDA 코드를 자동으로 재구성합니다.
CuBridge는 기존의 일반 프레임워크나 LLM 기반 접근법보다 일관되게 높은 정확성과 성능을 보여줍니다.

효율적인 CUDA attention 구현은 현대 딥러닝 시스템에 필수적이지만, 다양한 진화하는 attention 변형을 지원하기는 여전히 어렵습니다. 기존 프레임워크와 컴파일러는 성능과 유연성을 교환하며, 전문가가 작성한 커널은 높은 효율성을 달성하지만 적응하기 어렵습니다. 최근 연구는 GPU 커널 생성을 위해 대규모 언어 모델 (LLM) 을 탐구했으나, 이전 연구들은 attention 과 같은 복잡한 연산자에 대해 불안정한 정확성과 큰 성능 격차를 보고했습니다. 우리는 CuBridge 를 제시합니다. CuBridge 는 전문가가 작성한 attention 커널을 구조화된 lift-transfer-lower 워크플로우를 통해 적응시킵니다. CuBridge 는 전문가가 작성한 CUDA attention 커널에서 시작하여, 저수준 CUDA 문법을 추상화하고 실행 오케스트레이션을 명시적으로 만드는 실행 가능한 중간 표현 (IR) 으로 이를 승격시킵니다. 사용자에게 제공된 PyTorch 사양을 주면 CuBridge 는 타겟 IR 프로그램을 생성하고 검증한 후, 참조 가이드를 통한 lower 를 통해 최적화된 CUDA 코드를 재구성합니다. 다양한 attention 변형과 GPU 플랫폼에서 CuBridge 는 일관되게 정확한 커널을 생성하며, 일반 프레임워크, 컴파일러 기반 접근법 및 이전 LLM 기반 방법보다 현저히 성능이 뛰어납니다.

AI 자동 생성 콘텐츠

원문 바로가기

CuBridge: LLM 기반의 고품질 Attention 커널 이해 및 재구성 프레임워크

요약

핵심 포인트

댓글