KernelSight-LM: 커널 수준의 LLM 추론 시뮬레이터

대규모 언어 모델 (LLMs)이 프로덕션 서비스 단계로 진입함에 따라, 실무자들은 비용 및 지연 시간 (latency) 목표를 달립기 위해 다양한 하드웨어, 모델 및 서빙 파라미터에 걸친 추론 성능을 신속하게 평가해야 합니다. 그러나 LLM의 엔드투엔드 (end-to-end) 동작은 서빙 계층의 정책을 저수준 GPU 커널 실행 및 빠르게 진화하는 아키텍처와 결합시키며, 이로 인해 일반화하기 어려운, 배포별로 특화된 느린 벤치마킹을 강요합니다. 우리는 토큰 수준의 실행을 모델링하고 커널 수준의 지연 시간 분석 (latency breakdowns)을 생성하는 미세 조정된 추론 시뮬레이터인 KernelSight-LM을 제시합니다. 이 시뮬레이터는 각 서빙 단계를 학습된 효율성 항을 가진 루프라인 커널 모델 (roofline kernel model), 통신 모델 (communication model), 그리고 호스트 오버헤드 모델 (host-overhead model)로 분해하며, 이는 프리픽스 캐싱 (prefix caching) 및 연속 배치 (continuous batching)와 같은 메커니즘을 포착하는 이산 이벤트 스케줄러 (discrete-event scheduler)를 통해 구성됩니다. KernelSight-LM은 정확도와 타겟 GPU 데이터 간의 절충을 제공하는 두 가지 예측 계층을 제공합니다. 교차 세대 (cross-generation) 계층은 타겟 GPU 측정값을 사용하지 않고, 하드웨어 사양과 이전에 프로파일링된 GPU의 커널 마이크로벤치마크 (kernel microbenchmarks)만을 사용하여 보지 못한 GPU 세대의 커널당 지연 시간을 12.1% 오차 범위 내로 예측하며, 이는 루프라인 베이스라인 (22.0%) 대비 1.8배 개선된 수치입니다. 두 번째 타겟 측정 (target-measured) 계층은 타겟 GPU에서 모델 불가지론적 (model-agnostic) 커널 마이크로벤치마크 스윕을 한 번 추가하여, 커널당 오차를 3.8%로 정밀화하며, 이는 유사한 베이스라인 (27.7%) 대비 7.3배 개선된 수치입니다. 두 계층 모두 확장 대상인 기존 시스템보다 훨씬 적은 타겟 GPU 데이터를 필요로 합니다. 본 시뮬레이터에서 이러한 예측은 6개의 모델 제품군에 대해 교차 세대 계층에서 각각 15.4%, 12.8%, 3.0% (TTFT, TPOT, 처리량), 타겟 측정 계층에서 14.3%, 6.2%, 2.7%의 엔드투엔드 중앙값 (p50) 오차를 기록하며, 훨씬 적은 온디바이스 (on-device) 데이터를 수집하면서도 전용 프로파일링 도구와 일치하는 성능을 보여줍니다. 예측을 넘어, 커널 수준의 병목 현상 분석 (bottleneck breakdowns)은 하드웨어/소프트웨어 공동 설계 (co-design) 및 용량 계획 (capacity planning)을 지원합니다.

Insights

KernelSight-LM: 커널 수준의 LLM 추론 시뮬레이터

요약

핵심 포인트

댓글

H-DenseUNet: CT 볼륨에서 간 및 종양 분할을 위한 하이브리드 밀집 연결 UNet (Hybrid Densely Connected

시니어 분석가, 하락장 뉴스에도 불구하고 MSTR 주식 500% 급등 예측

작은 AI와 더 나은 소프트웨어의 귀환

GitHub에 푸시하면 자동으로 업데이트되는 포트폴리오를 만들었습니다

시니어 분석가, 하락장 뉴스에도 불구하고 MSTR 주식 500% 급등 예측

작은 AI와 더 나은 소프트웨어의 귀환

GitHub에 푸시하면 자동으로 업데이트되는 포트폴리오를 만들었습니다