KernelSight-LM: 커널 수준의 LLM 추론 시뮬레이터
요약
KernelSight-LM은 LLM의 추론 성능을 커널 수준에서 정밀하게 시뮬레이션하는 도구입니다. 하드웨어 사양과 마이크로벤치마크를 활용해 다양한 GPU 환경에서의 지연 시간과 처리량을 정확하게 예측합니다.
핵심 포인트
- 커널, 통신, 호스트 오버헤드 모델을 결합한 미세 조정된 시뮬레이터
- 타겟 GPU 데이터 없이도 차세대 GPU 성능을 12.1% 오차 내 예측
- 최소한의 마이크로벤치마크로 커널당 오차를 3.8%까지 정밀화
- 하드웨어/소프트웨어 공동 설계 및 용량 계획 지원
대규모 언어 모델 (LLMs)이 프로덕션 서비스 단계로 진입함에 따라, 실무자들은 비용 및 지연 시간 (latency) 목표를 달립기 위해 다양한 하드웨어, 모델 및 서빙 파라미터에 걸친 추론 성능을 신속하게 평가해야 합니다. 그러나 LLM의 엔드투엔드 (end-to-end) 동작은 서빙 계층의 정책을 저수준 GPU 커널 실행 및 빠르게 진화하는 아키텍처와 결합시키며, 이로 인해 일반화하기 어려운, 배포별로 특화된 느린 벤치마킹을 강요합니다. 우리는 토큰 수준의 실행을 모델링하고 커널 수준의 지연 시간 분석 (latency breakdowns)을 생성하는 미세 조정된 추론 시뮬레이터인 KernelSight-LM을 제시합니다. 이 시뮬레이터는 각 서빙 단계를 학습된 효율성 항을 가진 루프라인 커널 모델 (roofline kernel model), 통신 모델 (communication model), 그리고 호스트 오버헤드 모델 (host-overhead model)로 분해하며, 이는 프리픽스 캐싱 (prefix caching) 및 연속 배치 (continuous batching)와 같은 메커니즘을 포착하는 이산 이벤트 스케줄러 (discrete-event scheduler)를 통해 구성됩니다. KernelSight-LM은 정확도와 타겟 GPU 데이터 간의 절충을 제공하는 두 가지 예측 계층을 제공합니다. 교차 세대 (cross-generation) 계층은 타겟 GPU 측정값을 사용하지 않고, 하드웨어 사양과 이전에 프로파일링된 GPU의 커널 마이크로벤치마크 (kernel microbenchmarks)만을 사용하여 보지 못한 GPU 세대의 커널당 지연 시간을 12.1% 오차 범위 내로 예측하며, 이는 루프라인 베이스라인 (22.0%) 대비 1.8배 개선된 수치입니다. 두 번째 타겟 측정 (target-measured) 계층은 타겟 GPU에서 모델 불가지론적 (model-agnostic) 커널 마이크로벤치마크 스윕을 한 번 추가하여, 커널당 오차를 3.8%로 정밀화하며, 이는 유사한 베이스라인 (27.7%) 대비 7.3배 개선된 수치입니다. 두 계층 모두 확장 대상인 기존 시스템보다 훨씬 적은 타겟 GPU 데이터를 필요로 합니다. 본 시뮬레이터에서 이러한 예측은 6개의 모델 제품군에 대해 교차 세대 계층에서 각각 15.4%, 12.8%, 3.0% (TTFT, TPOT, 처리량), 타겟 측정 계층에서 14.3%, 6.2%, 2.7%의 엔드투엔드 중앙값 (p50) 오차를 기록하며, 훨씬 적은 온디바이스 (on-device) 데이터를 수집하면서도 전용 프로파일링 도구와 일치하는 성능을 보여줍니다. 예측을 넘어, 커널 수준의 병목 현상 분석 (bottleneck breakdowns)은 하드웨어/소프트웨어 공동 설계 (co-design) 및 용량 계획 (capacity planning)을 지원합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기