Hawk: 고성능 NPU 커널 생성을 위한 하드웨어 인식 지식 활용

Neural Processing Units (NPUs)를 위한 고성능 커널을 개발하는 것은 산업계의 중요한 병목 현상이며, 개발자가 암시적인 하드웨어 제약 조건과 엄격한 메모리 계층 구조를 수동으로 탐색해야 하는 과정을 요구합니다. 대규모 언어 모델 (LLM)은 엄청난 자동화 잠재력을 제공하지만, 하드웨어 특화적인 사전 지식 (priors)의 근본적인 결여로 인해 NPU에서는 처참하게 실패합니다. 유사한 NPU 커널에서 코드 스니펫을 단순히 이식하는 것은 컴파일러를 통과할 수는 있지만, 기저의 하드웨어 제약 조건을 맹목적으로 위반함으로써 지속적으로 런타임 충돌과 성능 저하를 유발합니다. 이를 극복하기 위해, 우리는 세 가지 핵심 모듈을 통해 하드웨어 인식 지식을 활용하는 훈련이 필요 없는 (training-free) 프레임워크인 Hawk를 소개합니다: (1) 실행 오류 문맥을 실행 가능한 의미론 (semantics)과 본질적으로 결합하기 위해 3부 구성 실행 가능 지식 표현 (Triple-Part Executable Knowledge Representation)을 사용하는 런타임 지식 합성 모듈 (Run-Time Knowledge Synthesis Module); (2) 쿼리를 직교하는 구문 및 하드웨어 정렬 의미론 공간으로 투영하기 위해 2D 검색 (2D-Retrieval) 패러다임을 구현하는 병목 인식 지식 검색 모듈 (Bottleneck-Aware Knowledge Retrieval Module); (3) 경험적인 실행 피드백을 기반으로 오류를 가지치기하고 중복을 통합함으로써 LLM 기반의 의미론적 중재 (semantic arbitration)를 활용하여 지식을 지속적으로 증류하는 효과 주도형 지식 증류 모듈 (Effect-Driven Knowledge Distillation Module)입니다. 실제 NPU 워크로드에 대한 광범위한 평가 결과, Hawk는 생성 정확도를 49.4%에서 80.0%로 높이는 동시에 최첨단 (state-of-the-art) 베이스라인 대비 최대 2.2배의 실행 속도 향상을 달성함을 입증했습니다.

Insights

Hawk: 고성능 NPU 커널 생성을 위한 하드웨어 인식 지식 활용

요약

핵심 포인트

댓글

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실