Hawk: 고성능 NPU 커널 생성을 위한 하드웨어 인식 지식 활용
요약
Hawk는 NPU 커널 개발 시 발생하는 하드웨어 제약 조건 문제를 해결하기 위한 training-free 프레임워크입니다. 하드웨어 인식 지식을 활용하여 LLM이 NPU의 메모리 계층 구조와 제약 조건을 준수하며 고성능 커널을 생성하도록 돕습니다.
핵심 포인트
- NPU 커널 개발의 병목인 하드웨어 제약 조건 탐색 자동화
- 3부 구성 실행 가능 지식 표현을 통한 런타임 지식 합성
- 2D 검색 패러다임을 활용한 병목 인식 지식 검색
- LLM 기반 의미론적 중재를 통한 효과 주도형 지식 증류
- 생성 정확도 80% 달성 및 베이스라인 대비 최대 2.2배 속도 향상
Neural Processing Units (NPUs)를 위한 고성능 커널을 개발하는 것은 산업계의 중요한 병목 현상이며, 개발자가 암시적인 하드웨어 제약 조건과 엄격한 메모리 계층 구조를 수동으로 탐색해야 하는 과정을 요구합니다. 대규모 언어 모델 (LLM)은 엄청난 자동화 잠재력을 제공하지만, 하드웨어 특화적인 사전 지식 (priors)의 근본적인 결여로 인해 NPU에서는 처참하게 실패합니다. 유사한 NPU 커널에서 코드 스니펫을 단순히 이식하는 것은 컴파일러를 통과할 수는 있지만, 기저의 하드웨어 제약 조건을 맹목적으로 위반함으로써 지속적으로 런타임 충돌과 성능 저하를 유발합니다. 이를 극복하기 위해, 우리는 세 가지 핵심 모듈을 통해 하드웨어 인식 지식을 활용하는 훈련이 필요 없는 (training-free) 프레임워크인 Hawk를 소개합니다: (1) 실행 오류 문맥을 실행 가능한 의미론 (semantics)과 본질적으로 결합하기 위해 3부 구성 실행 가능 지식 표현 (Triple-Part Executable Knowledge Representation)을 사용하는 런타임 지식 합성 모듈 (Run-Time Knowledge Synthesis Module); (2) 쿼리를 직교하는 구문 및 하드웨어 정렬 의미론 공간으로 투영하기 위해 2D 검색 (2D-Retrieval) 패러다임을 구현하는 병목 인식 지식 검색 모듈 (Bottleneck-Aware Knowledge Retrieval Module); (3) 경험적인 실행 피드백을 기반으로 오류를 가지치기하고 중복을 통합함으로써 LLM 기반의 의미론적 중재 (semantic arbitration)를 활용하여 지식을 지속적으로 증류하는 효과 주도형 지식 증류 모듈 (Effect-Driven Knowledge Distillation Module)입니다. 실제 NPU 워크로드에 대한 광범위한 평가 결과, Hawk는 생성 정확도를 49.4%에서 80.0%로 높이는 동시에 최첨단 (state-of-the-art) 베이스라인 대비 최대 2.2배의 실행 속도 향상을 달성함을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기