arXiv논문2026. 05. 01. 15:44

Strait: ML 추론 서비스에서의 우선순위와 간섭 인식

요약

Strait는 ML 추론 서비스 시스템의 효율성을 높이기 위해 설계된 새로운 서비스 시스템입니다. 이 시스템은 GPU 환경에서 여러 작업의 우선순위를 인식하고, 데이터 전송 경쟁 및 커널 실행 간섭을 예측하여 스케줄링합니다. 그 결과, 고우선순위 작업의 마감 시간 준수율을 크게 향상시키면서도 저우선순위 작업에 합리적인 비용만 부과하는 것이 가능함을 입증했습니다.

핵심 포인트

Strait는 ML 추론 서비스에서 우선순위 기반 스케줄링을 제공하여, 고우선순위 작업의 마감 시간 준수율(deadline adherence)을 높입니다.
시스템은 데이터 전송 경쟁 및 커널 실행 간섭을 모델링하고 예측하는 적응형 예측 모델을 사용합니다.
Strait는 우선순위 인식 스케줄링을 통해 고우선순위 작업의 마감 시간 위반률을 1.02%~11.18% 감소시키는 성능 향상을 보였습니다.
기존 소프트웨어 정의 전제(preemption) 방식과 비교했을 때, Strait는 더 공정하고 우수한 성능을 제공합니다.

기계 학습 (Machine learning, ML) 추론 서비스 시스템은 심층 신경망 (Deep Neural Network, DNN) 모델을 호스팅하고 배포된 GPU 를 통해 들어오는 추론 요청을 스케줄링합니다. 그러나 작업 우선순위 지원이 제한적이고 동시 실행 환경에서의 지연 시간 추정 능력이 부족할 경우, 온프레미스 (on-premises) 시나리오에서의 적용 범위를 제한할 수 있습니다. 우리는 고 GPU 활용률 하에서 이중 우선순위 추론 트래픽의 마감 시간 (deadline) 준수율을 향상시키기 위해 설계된 서비스 시스템인 extit{Strait} 를 제안합니다. 지연 시간 추정을 개선하기 위해 Strait 은 데이터 전송 중 발생할 수 있는 경쟁 (contention) 을 모델링하고, 적응형 예측 모델을 통해 커널 실행 간섭 (kernel execution interference) 을 고려합니다. 이러한 예측을 바탕으로 Strait 은 차별화된 처리를 제공하는 우선순위 인식 스케줄링 (priority-aware scheduling) 을 수행합니다. 고강도 워크로드 환경에서의 평가 결과는 Strait 이 저우선순위 작업에 수용 가능한 비용 (acceptable costs) 을 부과하면서도, 고우선순위 작업의 마감 시간 위반률을 1.02~11.18 퍼센트 포인트 감소시킨다는 것을 보여줍니다. 소프트웨어 정의 우선순위 부여 (software-defined preemption) 접근법과 비교할 때 Strait 은 더 공정한 성능을 나타냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

Strait: ML 추론 서비스에서의 우선순위와 간섭 인식

요약

핵심 포인트

댓글