KernelSight-LM: 커널 수준의 LLM 추론 시뮬레이터

대규모 언어 모델 (LLMs)이 프로덕션 서비스 단계로 진입함에 따라, 실무자들은 비용 및 지연 시간 (latency) 목표를 달iah하기 위해 다양한 하드웨어, 모델 및 서빙 파라미터에 걸쳐 추론 성능을 신속하게 평가해야 합니다. 그러나 LLM의 엔드투엔드 (end-to-end) 동작은 서빙 계층 정책을 저수준 GPU 커널 실행 및 빠르게 진화하는 아키텍처와 결합시키며, 이로 인해 일반화하기 어려운, 배포 특정적인 느린 벤치마킹을 강요합니다. 우리는 토큰 수준의 실행을 모델링하고 커널 수준의 지연 시간 분석 (latency breakdowns)을 생성하는 미세 조정된 추론 시뮬레이터인 KernelSight-LM을 제시합니다. 이 시뮬레이터는 각 서빙 단계를 학습된 효율성 항을 포함하는 루프라인 커널 모델 (roofline kernel model), 통신 모델 (communication model), 그리고 호스트 오버헤드 모델 (host-overhead model)로 분해하며, 이는 프리픽스 캐싱 (prefix caching) 및 연속 배칭 (continuous batching)과 같은 메커니즘을 캡처하는 이산 이벤트 스케줄러 (discrete-event scheduler)를 통해 구성됩니다. KernelSight-LM은 정확도와 타겟 GPU 데이터 사이의 절충안을 제공하는 두 가지 예측 티어 (prediction tiers)를 제공합니다. 교차 세대 (cross-generation) 티어는 타겟 GPU 측정값을 사용하지 않고, 하드웨어 사양과 이전에 프로파일링된 GPU의 커널 마이크로벤치마크 (kernel microbenchmarks)만을 사용하여 보지 못한 GPU 세대에서의 커널별 지연 시간을 12.1% 오차 범위 내로 예측하며, 이는 루프라인 베이스라인 (roofline baseline, 22.0%) 대비 1.8배 개선된 수치입니다. 두 번째 타겟 측정 (target-measured) 티어는 타겟 GPU에서 모델 불가지론적 (model-agnostic) 커널 마이크로벤치마크 스윕을 한 번 추가하여, 커널별 오차를 3.8%로 정밀화하며, 이는 유사한 베이스라인 (27.7%) 대비 7.3배 개선된 수치입니다. 두 티어 모두 확장 대상인 기존 시스템보다 훨씬 적은 타겟 GPU 데이터를 필요로 합니다. 본 시뮬레이터에서 이러한 예측은 6개 모델 제품군에 대해 교차 세대 티어에서는 15.4%, 12.8%, 3.0% (TTFT, TPOT, 처리량), 타겟 측정 티어에서는 14.3%, 6.2%, 2.7%의 엔드투엔드 중앙값 (p50) 오차를 기록하며, 훨씬 적은 온디바이스 (on-device) 데이터를 수집하면서도 전용 프로파일링 도구와 일치하는 성능을 보여줍니다. 예측을 넘어, 커널 수준의 병목 현상 분석 (bottleneck breakdowns)은 하드웨어/소프트웨어 공동 설계 (hardware/software co-design) 및 용량 계획 (capacity planning)을 지원합니다.

Insights

KernelSight-LM: 커널 수준의 LLM 추론 시뮬레이터

요약

핵심 포인트

댓글

결정 피로가 당신의 AI 워크플로우를 망치고 있습니다 (해결책 포함)

MER-TRANS 2026에서의 HULAT2: 스페인어 쉬운 읽기(Easy-to-Read) 생성을 위한 제어된 멀티 에이전트 단순화

SkillFuzz: 오픈 스킬 마켓플레이스 내 암시적 의도 발견을 위한 스킬 조합 퍼징 (Fuzzing)

NLP의 미래는 NLP 컨퍼런스에 있지 않을 수도 있다: 자연어 처리 분야의 학술적 이동 패턴

결정 피로가 당신의 AI 워크플로우를 망치고 있습니다 (해결책 포함)

MER-TRANS 2026에서의 HULAT2: 스페인어 쉬운 읽기(Easy-to-Read) 생성을 위한 제어된 멀티 에이전트 단순화

SkillFuzz: 오픈 스킬 마켓플레이스 내 암시적 의도 발견을 위한 스킬 조합 퍼징 (Fuzzing)

NLP의 미래는 NLP 컨퍼런스에 있지 않을 수도 있다: 자연어 처리 분야의 학술적 이동 패턴