Strait: ML 추론 서비스에서의 우선순위와 간섭 인식
요약
Strait는 ML 추론 서비스 시스템의 효율성을 높이기 위해 설계된 새로운 서비스 시스템입니다. 이 시스템은 GPU 환경에서 여러 작업의 우선순위를 인식하고, 데이터 전송 경쟁 및 커널 실행 간섭을 예측하여 스케줄링합니다. 그 결과, 고우선순위 작업의 마감 시간 준수율을 크게 향상시키면서도 저우선순위 작업에 합리적인 비용만 부과하는 것이 가능함을 입증했습니다.
핵심 포인트
- Strait는 ML 추론 서비스에서 우선순위 기반 스케줄링을 제공하여, 고우선순위 작업의 마감 시간 준수율(deadline adherence)을 높입니다.
- 시스템은 데이터 전송 경쟁 및 커널 실행 간섭을 모델링하고 예측하는 적응형 예측 모델을 사용합니다.
- Strait는 우선순위 인식 스케줄링을 통해 고우선순위 작업의 마감 시간 위반률을 1.02%~11.18% 감소시키는 성능 향상을 보였습니다.
- 기존 소프트웨어 정의 전제(preemption) 방식과 비교했을 때, Strait는 더 공정하고 우수한 성능을 제공합니다.
기계 학습 (Machine learning, ML) 추론 서비스 시스템은 심층 신경망 (Deep Neural Network, DNN) 모델을 호스팅하고 배포된 GPU 를 통해 들어오는 추론 요청을 스케줄링합니다. 그러나 작업 우선순위 지원이 제한적이고 동시 실행 환경에서의 지연 시간 추정 능력이 부족할 경우, 온프레미스 (on-premises) 시나리오에서의 적용 범위를 제한할 수 있습니다. 우리는 고 GPU 활용률 하에서 이중 우선순위 추론 트래픽의 마감 시간 (deadline) 준수율을 향상시키기 위해 설계된 서비스 시스템인 extit{Strait} 를 제안합니다. 지연 시간 추정을 개선하기 위해 Strait 은 데이터 전송 중 발생할 수 있는 경쟁 (contention) 을 모델링하고, 적응형 예측 모델을 통해 커널 실행 간섭 (kernel execution interference) 을 고려합니다. 이러한 예측을 바탕으로 Strait 은 차별화된 처리를 제공하는 우선순위 인식 스케줄링 (priority-aware scheduling) 을 수행합니다. 고강도 워크로드 환경에서의 평가 결과는 Strait 이 저우선순위 작업에 수용 가능한 비용 (acceptable costs) 을 부과하면서도, 고우선순위 작업의 마감 시간 위반률을 1.02~11.18 퍼센트 포인트 감소시킨다는 것을 보여줍니다. 소프트웨어 정의 우선순위 부여 (software-defined preemption) 접근법과 비교할 때 Strait 은 더 공정한 성능을 나타냅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기