arXiv논문2026. 06. 16. 12:22

daVinci-kernel: GPU 커널 최적화를 위한 RL 기반의 기술 선택, 요약 및 활용의 공동 진화

요약

daVinci-kernel은 GPU 커널 최적화를 위해 기술 선택, 정책 생성, 기술 요약을 수행하는 세 가지 에이전트를 강화학습(RL)으로 공동 학습시키는 프레임워크입니다. 단일 LLM 백본을 공유하며, 실행 기반 검증을 통해 검증된 기술만을 라이브러리에 추가하여 효율성을 극대화합니다.

핵심 포인트

RL 기반의 기술 발견과 활용을 결합한 공동 진화 프레임워크 제시
기술 선택, 정책 생성, 기술 요약을 담당하는 3가지 에이전트 구조
실행 기반 검증을 통해 재현 가능한 속도 향상 기술만 라이브러리에 저장
KernelBench 테스트 결과 기존 SOTA 모델인 Dr.Kernel을 능가하는 성능 달성

GPU 커널 최적화 (GPU kernel optimization)는 기능적 정확성 (functional correctness)이 가정된 상태에서 실행 효율성 (execution efficiency)을 목표로 하는 패러다임을 나타냅니다. 우리는 동적으로 진화하는 기술 라이브러리 (skill library)를 통해 기술 발견 (skill discovery)과 기술 활용 (skill exploitation)을 결합하는 강화학습 (RL) 프레임워크인 daVinci-kernel을 제시합니다. daVinci-kernel은 하나의 LLM 백본 (backbone)을 공유하는 세 가지 에이전트를 공동 학습시킵니다: BM25 및 LLM 재순위화 (reranking)를 통해 관련 기술을 검색하는 기술 선택 에이전트 (Skill Selection Agent), 선택된 기술을 조건으로 멀티턴 (multi-turn) CUDA/Triton 커널을 생성하는 정책 에이전트 (Policy Agent), 그리고 성공적인 롤아웃 (rollouts)을 재사용 가능한 기술로 증류하는 기술 요약 에이전트 (Skill Summary Agent)입니다. 후보 기술은 실행 기반 검증 (execution-based verification)을 통해 재현 가능한 속도 향상 (speedups)이 확인된 경우에만 추가됩니다. 세 에이전트 모두 단일 LLM 백본을 공유하며, 다양성이 필터링된 데이터에 대한 구조화된 SFT 콜드 스타트 (cold start)를 통해 초기화된 후, 멀티턴 REINFORCE 및 에이전트별 어드밴티지 추정 (advantage estimation)을 통해 엔드투엔드 (end-to-end)로 공동 최적화됩니다. KernelBench에서 daVinci-kernel-14B는 Fast$_1$ 임계값 하에서 Level 1, Level 2, Level 3에 대해 각각 37.2%, 70.6%, 32.2%를 달성하며, 기존의 가장 강력한 RL 학습 모델인 Dr.Kernel-14B를 능가합니다.

AI 자동 생성 콘텐츠

원문 바로가기

daVinci-kernel: GPU 커널 최적화를 위한 RL 기반의 기술 선택, 요약 및 활용의 공동 진화

요약

핵심 포인트

댓글