침묵의 하이퍼파라미터: 추론 백엔드(Inference Backends)가 LLM 재현성에 미치는 영향 정량화
요약
본 연구는 LLM 평가 시 추론 백엔드(Inference Backends)가 결과의 재현성에 미치는 영향을 정량적으로 분석합니다. vLLM, SGLang, llama.cpp 등 다양한 엔진을 테스트한 결과, 백엔드 선택만으로 벤치마크 점수가 최대 16.6%포인트까지 차이 날 수 있음을 확인했습니다. 연구진은 이러한 차이가 커스텀 CUDA 커널 및 시스템 최적화에서 기인한다고 밝히며, LLM 평가 시 추론 스택을 표준화하여 보고할 것을 권고합니다.
핵심 포인트
- 추론 백엔드 선택에 따라 LLM 벤치마크 점수가 최대 16.6%포인트 변동될 수 있음
- 커스텀 CUDA 커널, 저정밀도 산술, 프리픽스 캐싱 등이 토큰 확률과 결과의 비결정론을 유발함
- 많은 ML 논문들이 광범위한 추론 환경의 다양성에도 불구하고 구체적인 추론 스택을 보고하지 않음
- 추론 백엔드는 LLM 성능 평가 시 반드시 고려해야 할 '침묵의 하이퍼파라미터'임
LLM(Large Language Models)의 발전은 점점 더 표준화된 벤치마크(benchmarks)를 통해 측정되고 있으며, 최첨단(state-of-the-art) 성능의 향상은 종종 1% 미만의 미세한 차이로 구분됩니다. 동시에, 현대적인 LLM을 평가하는 데 드는 계산 비용으로 인해 추론 시점에 학습된 모델을 효율적으로 실행하는 소프트웨어 시스템인 특화된 추론 백엔드(inference backends)의 도입이 널리 확산되었습니다. 확장성 측면에서 매우 중요하지만, 커스텀 CUDA 커널(custom CUDA kernels) 및 저정밀도 산술(reduced-precision arithmetic)과 같은 시스템 수준의 최적화는 토큰 확률(token probabilities)을 변경하고 비결정론(non-determinism)을 유발하여, 결과적으로 생성 결과가 갈라지는 연쇄 반응을 일으킬 수 있습니다.
본 연구에서는 먼저 200개의 서로 다른 엔진을 식별하여 추론 환경을 조사하고, 35,000개의 ML(Machine Learning) 논문을 분석하여 이러한 광범위한 다양성에도 불구하고 특정 추론 스택(inference stack)이 보고되는 경우가 드물다는 것을 발견했습니다. 이어서 우리는 추론 백엔드가 LLM 벤치마크 결과에 어떻게 영향을 미치는지에 대한 체계적인 실증 연구를 제시합니다. 모델 가중치(model weights), 디코딩 파라미터(decoding parameters), 하드웨어를 동일하게 유지한 상태에서, 우리는 vLLM, SGLang, llama.cpp를 포함하여 널리 사용되는 5개의 추론 엔진을 여러 오픈 웨이트(open-weight) 모델 및 기성 벤치마크에 대해 평가합니다.
우리는 백엔드 선택만으로도 벤치마크 점수가 최대 16.6%포인트까지 변동될 수 있으며, 높은 비율의 출력 불일치(output disagreement)를 유발할 수 있음을 보여줍니다. 백엔드 최적화를 격리하고 실행 파이프라인(execution pipeline)을 추적함으로써, 우리는 이러한 차이가 프리픽스 캐싱(prefix caching) 및 CUDA 그래프(CUDA graphs), 커스텀 커널, 그리고 로짓 처리(logit processing)에서의 엔진별 기본 설정(engine-specific defaults)과 같은 시스템 수준의 최적화에 의해 발생한다는 것을 발견했습니다. 우리의 연구 결과는 추론 백엔드를 LLM 평가에서 이전에 보고되지 않았으나 중대한 영향을 미치는 하이퍼파라미터(hyperparameter)로 규정하며, 벤치마크 비교의 재현성(reproducibility)과 해석 가능성(interpretability)을 향상시키기 위해 추론 스택의 표준화된 보고를 옹호합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG (Machine Learning)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기