유휴 Inference GPU Pool을 이용한 GPU Job 스케줄링
요약
LG AI연구원이 LLM 서비스의 유휴 GPU 자원을 연구 및 실험 작업에 재활용하는 스케줄링 파이프라인을 구축했습니다. vLLM 지표를 활용한 정밀한 자원 조정과 Best-effort 방식을 통해 서비스 안정성을 유지하며 막대한 비용 절감 효과를 거두었습니다.
핵심 포인트
- vLLM 내부 지표를 활용한 정밀한 GPU 오토 스케일링 구현
- 서비스 안정성을 위해 연구 작업을 Best-effort 방식으로 실행
- Argo Workflows 기반의 범용적이고 재현 가능한 파이프라인 구축
- 추가 장비 구매 없이 약 1억 8천만 원의 비용 절감 효과 달성
유휴 Inference GPU Pool을 이용한 GPU job 스케줄링: LG AI연구원의 인프라 효율화 사례
LG AI연구원 Platform&Infra Team이 공개한 이번 글은 대규모 언어 모델(LLM) 서비스 운영 과정에서 발생하는 유휴 GPU 자원을 어떻게 연구·실험 작업에 재활용했는지를 다룹니다. AI 서비스 운영 기업은 보통 트래픽 최고치를 기준으로 GPU를 미리 확보해 두기 때문에, 트래픽이 줄어드는 시간대에는 비싼 GPU가 메모리만 점유한 채 놀게 됩니다. 연구원은 이 빈 시간대의 GPU를 학습·평가용 작업에 자동 배정하는 파이프라인을 구축해, 추가 장비 구매 없이 연산 자원을 확보하는 성과를 거뒀습니다.
핵심 문제 정의
LLM 서비스의 오토 스케일링 한계: 일반 웹 서비스와 달리 LLM은 입력·출력 토큰 길이와 모델 구조에 따라 한 요청당 GPU 소모량이 들쭉날쭉합니다. 따라서 CPU 사용률이나 메모리 점유율 같은 전통적 지표로는 실제 부하를 측정하기 어렵습니다.유휴 자원의 규모: 레플리카(서비스 인스턴스 복제본) 한 개가 GPU 4장을 쓰는 환경에서, 야간 비혼잡 시간대(20시~익일 8시)에 하루 평균 52장의 GPU가 약 12시간 동안 놀고 있는 상태였습니다.
해결 방식
vLLM 내부 지표 활용: 일반 시스템 지표 대신 LLM 추론 엔진 vLLM이 제공하는 실시간 처리량·큐 대기 상태 같은 지표를 오토 스케일링 기준으로 삼아, LLM 특성에 맞는 정밀한 자원 조정을 구현했습니다.Best-effort 방식의 작업 실행: 야간 유휴 GPU에 연구 작업을 띄우되, 트래픽이 다시 늘면 언제든 연구 작업을 중단하고 서비스로 GPU를 돌려주는 구조로 설계해 서비스 안정성을 침해하지 않도록 했습니다.Argo Workflows 기반 파이프라인: Docker 이미지 단위로 작업을 정의하고, 데이터 전처리·사전학습·지도학습 미세조정·강화학습·평가 등을 스텝(단계)으로 나눠 순차 또는 병렬로 실행할 수 있게 만들었습니다.
설계 원칙의 특장점
범용성: 학습과 추론, 어떤 프레임워크든 Docker 이미지로 감싸면 그대로 실행 가능합니다.확장성과 유연성: 새로운 작업 유형이 추가되어도 파이프라인 코드를 고치지 않고 수용할 수 있습니다.재현성: 모든 설정을 코드가 아닌 외부 파라미터로 주입하고, 입출력은 클라우드 스토리지에서 관리해 동일 조건이면 동일 결과가 보장됩니다. 파이프라인이 상태를 보존하지 않는 비저장성(Stateless) 구조라는 점도 운영 안정성에 기여합니다.
운영 결과
누적 사용량: 2025년 11월부터 2026년 1월까지 약 3개월간 85개 작업이 실행됐고, 누적 GPU 사용량은 95,000 GPU 시간에 이르렀습니다.증가 추이: 1월의 GPU 사용량은 11월 대비 약 70% 증가했으며, 24시간 환산 시 약 55장의 GPU를 신규 확보한 것과 동일한 효과를 냈습니다.비용 절감: 동일 연산량을 퍼블릭 클라우드 3년 약정 기준으로 환산하면 1월 한 달에 약 7천5백만 원, 3개월 누적 약 1억 8천5백만 원 규모의 절감 효과가 발생했습니다.
향후 계획
스케일링 지표 고도화: 서비스별 사용 패턴을 더 세분화해 자원 배정 로직을 정교화할 예정입니다.상시 스케줄링 확대: Kubernetes와 자체 모델 EXAONE을 활용해 야간뿐 아니라 자원이 비는 즉시 작업을 띄우는 상시 실행 체계로 확장하고자 합니다.UX 개선: 연구자가 작업 요청부터 모니터링까지 직관적으로 수행할 수 있는 인터페이스를 마련할 계획입니다.
이번 사례는 GPU 부족이라는 업계 공통의 과제를 하드웨어 증설이 아니라 운영 구조 개선으로 풀어낸 시도라는 점에서 시사하는 바가 있습니다. 특히 LLM 서비스 특유의 부하 측정 어려움을 vLLM 내부 지표로 우회하고, 연구 작업을 Best-effort로 두어 서비스 안정성과 자원 활용도라는 두 가지 상충하는 목표를 동시에 잡은 접근이 눈에 띕니다. 추가 투자 없이 약 1억 8천만 원대의 비용을 절감했다는 정량적 성과는 GPU 인프라를 운영하는 다른 조직에도 충분히 참고가 될 만한 운영 모델을 제시합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 RSS: GeekNews (한국어)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기