arXiv논문2026. 06. 11. 19:14

GPU 기반 LLM 서빙 시스템의 소프트웨어 노화 특성 분석

요약

본 논문은 GPU 기반 LLM 서빙 시스템에서 발생하는 소프트웨어 노화 현상을 연구하는 경험적 방법론을 제안합니다. 기존 CPU 중심의 연구와 달리, 변동성이 큰 워크로드를 처리하는 LLM 환경에 초점을 맞췄습니다. 216시간 캠페인과 통계적 분석을 통해 모든 배포 환경에서 메모리 노화를 확인하고, 그 원인이 서빙 런타임 및 구성에 크게 의존함을 밝혀냈습니다.

핵심 포인트

LLM 서빙은 변동성이 크고 Python 호스트와 CUDA 장치를 아우르는 복잡한 환경이다.
216시간 캠페인과 통계적 파이프라인을 통해 메모리 노화를 확인했다.
메모리 노화율은 서빙 런타임 및 배포 구성에 강하게 의존한다.

본 논문은 GPU 기반 LLM(Large Language Model) 서빙 시스템에서 발생하는 소프트웨어 노화를 연구하기 위한 경험적 방법론을 제안합니다. 전통적인 노화 연구는 비교적 규칙적인 워크로드를 가진 CPU 중심의 소프트웨어에 초점을 맞추었지만, LLM 서빙은 다릅니다. 이는 Python 호스트와 CUDA 장치를 아우르며, 비용이 여러 자릿수(orders of magnitude)로 변동하는 요청을 처리하고 빠르게 진화하는 소프트웨어 스택에 의존합니다. 우리는 동일한 스트레스 조건 하에서 6개의 공동 배치 환경(co-located deployments)을 대상으로 216시간 캠페인을 진행했으며, 호스트, 장치, 클라이언트 메트릭을 병렬로 모니터링하고 자기상관성(autocorrelation)과 다중 검정(multiple testing)을 고려하는 통계적 파이프라인을 적용했습니다. 우리의 결과는 모든 배포 환경에서 통계적으로 유의미한 메모리 노화를 밝혀냈으며, 누수율(leak rates)은 서빙 런타임 및 배포 구성에 강하게 의존함을 보여줍니다. 이러한 발견 외에도, 우리는 소프트웨어 노화 및 재생(rejuvenation)과 LLM 서빙 커뮤니티가 교차하는 지점에서 연구 방향을 제시할 수 있는 재현 가능한 프레임워크를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

GPU 기반 LLM 서빙 시스템의 소프트웨어 노화 특성 분석

요약

핵심 포인트

댓글