Lobste.rs헤드라인2026. 06. 23. 08:31

Event Tensor: 동적 Megakernel 컴파일을 위한 통합 추상화

요약

LLM 추론 시 발생하는 커널 실행 오버헤드와 동적 형상 처리 문제를 해결하기 위한 'Event Tensor' 컴파일러 추상화를 제안합니다. 타일링된 작업 간 의존성을 인코딩하여 동적 특성을 지원하며, 최첨단 LLM 서빙 지연 시간을 달성합니다.

핵심 포인트

LLM 추론의 커널 실행 오버헤드 및 동기화 문제 해결
동적 형상 및 데이터 의존적 계산을 지원하는 통합 추상화 제안
Event Tensor Compiler(ETC)를 통한 고성능 지속성 커널 생성
시스템 웜업 오버헤드 감소 및 최첨단 LLM 서빙 성능 달성

Computer Science > Distributed, Parallel, and Cluster Computing

Title: Event Tensor: 동적 Megakernel 컴파일을 위한 통합 추상화

View PDF HTML (experimental)초록: 현대의 GPU 워크로드, 특히 대규모 언어 모델 (LLM) 추론은 커널 실행 오버헤드 (kernel launch overheads)와 커널 간 병렬성을 제한하는 거친 동기화 (coarse synchronization) 문제로 어려움을 겪고 있습니다. 최근의 megakernel 기술은 여러 연산자 (operators)를 하나의 지속성 커널 (persistent kernel)로 융합하여 실행 간격 (launch gaps)을 제거하고 커널 간 병렬성을 노출하지만, 실제 워크로드에서의 동적 형상 (dynamic shapes) 및 데이터 의존적 계산 (data-dependent computation)을 처리하는 데 어려움이 있습니다. 본 논문에서는 동적 megakernel을 위한 통합 컴파일러 추상화인 Event Tensor를 제안합니다. Event Tensor는 타일링된 작업 (tiled tasks) 간의 의존성을 인코딩하며, 형상 및 데이터 의존적 동적 특성 (dynamism) 모두를 일급 객체 (first-class)로 지원합니다. 이 추상화 위에 구축된 당사의 Event Tensor Compiler (ETC)는 정적 및 동적 스케줄링 변환 (scheduling transformations)을 적용하여 고성능 지속성 커널을 생성합니다. 평가 결과, ETC는 시스템 웜업 (warmup) 오버헤드를 크게 줄이면서도 최첨단 (state-of-the-art) LLM 서빙 지연 시간 (latency)을 달성함을 보여줍니다.

Current browse context:

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

arXivLabs는 협력자들이 당사 웹사이트에서 직접 새로운 arXiv 기능을 개발하고 공유할 수 있도록 하는 프레임워크입니다.

arXivLabs와 함께하는 개인 및 조직 모두 개방성, 커뮤니티, 탁월함, 그리고 사용자 데이터 프라이버시라는 당사의 가치를 수용하고 받아들였습니다. arXiv는 이러한 가치에 전념하며, 이를 준수하는 파트너와만 협력합니다.

arXiv 커뮤니티에 가치를 더할 프로젝트 아이디어가 있습니까? arXivLabs에 대해 더 알아보기.

AI 자동 생성 콘텐츠

원문 바로가기