arXiv논문2026. 05. 12. 18:29

LoKA: 대규모 추천 모델을 위한 저정밀도 커널 애플리케이션

요약

본 기사는 대규모 추천 모델(LRMs)에 저정밀도 산술 연산(예: FP8)을 적용하는 데 따르는 어려움을 다룹니다. LRM은 수치적 민감성, GEMM 및 정규화 중심의 워크로드 특성 때문에 단순히 낮은 비트 커널을 도입하기 어렵습니다. 따라서 LoKA Dispatch는 모델-시스템 공동 설계 접근 방식을 통해 정확도 요구 사항을 충족하는 최적의 FP8 커널을 선택하여 LRM 성능 향상을 목표로 합니다.

핵심 포인트

대규모 추천 모델(LRMs)은 수치적으로 민감하며, LLM과 달리 저정밀도 연산 적용에 어려움이 있다.
LRM 워크로드는 GEMM 및 정규화가 지배적이며 통신 집약적이어서 단순한 커널 개선만으로는 해결되지 않는다.
FP를 성공적으로 통합하려면 시스템-모델 공동 설계(co-design) 접근 방식이 필수적이다.
LoKA Dispatch는 LoKA Probe의 통계적 분석을 활용하여 정확도를 유지하면서 가장 빠른 FP8 커널을 선택하는 런타임을 제공한다.

최근 GPU 세대는 FP8과 같은 저정밀도 산술 연산을 사용하여 훨씬 높은 FLOPs를 제공합니다. 이는 대규모 언어 모델(LLMs)에 성공적으로 적용되었지만, 대규모 추천 모델(LRMs)에서의 채택은 제한적이었습니다. 그 이유는 LRM이 수치적으로 민감하며, 작은 행렬 곱셈(GEMMs)과 정규화로 지배되고 통신 집약적인 환경에서 훈련되기 때문입니다. FP8을 LRM에 직접 적용하는 것은 종종 모델 품질을 저하시키고 훈련 시간을 늘립니다. 이러한 문제들은 LRM 워크로드 자체에 내재된 것이므로, 단순히 더 나은 FP8 커널을 도입한다고 해결될 수 없습니다. 대신, FP를 성공적으로 통합하기 위해서는 시스템-모델 공동 설계 접근 방식이 필요합니다.

LoKA Dispatch는 LoKA Probe에서 얻은 통계적 인사이트를 활용하여 정확도 요구 사항을 충족하는 가장 빠른 FP8 커널을 선택하는 런타임입니다.

AI 자동 생성 콘텐츠

원문 바로가기

LoKA: 대규모 추천 모델을 위한 저정밀도 커널 애플리케이션

요약

핵심 포인트

댓글