KernelSight-LM: 커널 수준의 LLM 추론 시뮬레이터
요약
KernelSight-LM은 LLM의 추론 성능을 커널 수준에서 정밀하게 시뮬레이션하는 새로운 프레임워크입니다. 하드웨어 사양과 커널 모델을 활용하여 GPU 세대가 바뀌더라도 낮은 오차로 지연 시간을 예측하고 병목 현상을 분석할 수 있습니다.
핵심 포인트
- 커널, 통신, 호스트 오버헤드를 분해하여 토큰 단위 실행 모델링
- 타겟 GPU 데이터 없이도 새로운 GPU 세대의 지연 시간을 12.1% 오차 내 예측
- 마이크로벤치마크 활용 시 커널별 오차를 3.8%까지 정밀화 가능
- 하드웨어/소프트웨어 공동 설계 및 용량 계획 지원
대규모 언어 모델 (LLMs)이 프로덕션 서비스 단계로 진입함에 따라, 실무자들은 비용 및 지연 시간 (latency) 목표를 달iah하기 위해 다양한 하드웨어, 모델 및 서빙 파라미터에 걸쳐 추론 성능을 신속하게 평가해야 합니다. 그러나 LLM의 엔드투엔드 (end-to-end) 동작은 서빙 계층 정책을 저수준 GPU 커널 실행 및 빠르게 진화하는 아키텍처와 결합시키며, 이로 인해 일반화하기 어려운, 배포 특정적인 느린 벤치마킹을 강요합니다. 우리는 토큰 수준의 실행을 모델링하고 커널 수준의 지연 시간 분석 (latency breakdowns)을 생성하는 미세 조정된 추론 시뮬레이터인 KernelSight-LM을 제시합니다. 이 시뮬레이터는 각 서빙 단계를 학습된 효율성 항을 포함하는 루프라인 커널 모델 (roofline kernel model), 통신 모델 (communication model), 그리고 호스트 오버헤드 모델 (host-overhead model)로 분해하며, 이는 프리픽스 캐싱 (prefix caching) 및 연속 배칭 (continuous batching)과 같은 메커니즘을 캡처하는 이산 이벤트 스케줄러 (discrete-event scheduler)를 통해 구성됩니다. KernelSight-LM은 정확도와 타겟 GPU 데이터 사이의 절충안을 제공하는 두 가지 예측 티어 (prediction tiers)를 제공합니다. 교차 세대 (cross-generation) 티어는 타겟 GPU 측정값을 사용하지 않고, 하드웨어 사양과 이전에 프로파일링된 GPU의 커널 마이크로벤치마크 (kernel microbenchmarks)만을 사용하여 보지 못한 GPU 세대에서의 커널별 지연 시간을 12.1% 오차 범위 내로 예측하며, 이는 루프라인 베이스라인 (roofline baseline, 22.0%) 대비 1.8배 개선된 수치입니다. 두 번째 타겟 측정 (target-measured) 티어는 타겟 GPU에서 모델 불가지론적 (model-agnostic) 커널 마이크로벤치마크 스윕을 한 번 추가하여, 커널별 오차를 3.8%로 정밀화하며, 이는 유사한 베이스라인 (27.7%) 대비 7.3배 개선된 수치입니다. 두 티어 모두 확장 대상인 기존 시스템보다 훨씬 적은 타겟 GPU 데이터를 필요로 합니다. 본 시뮬레이터에서 이러한 예측은 6개 모델 제품군에 대해 교차 세대 티어에서는 15.4%, 12.8%, 3.0% (TTFT, TPOT, 처리량), 타겟 측정 티어에서는 14.3%, 6.2%, 2.7%의 엔드투엔드 중앙값 (p50) 오차를 기록하며, 훨씬 적은 온디바이스 (on-device) 데이터를 수집하면서도 전용 프로파일링 도구와 일치하는 성능을 보여줍니다. 예측을 넘어, 커널 수준의 병목 현상 분석 (bottleneck breakdowns)은 하드웨어/소프트웨어 공동 설계 (hardware/software co-design) 및 용량 계획 (capacity planning)을 지원합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기