arXiv논문2026. 05. 02. 10:50

MPS 와 MIG 기술을 활용한 GPU 공간 공동 실행에 대한 종합 평가

요약

본 기사는 GPU 자원 활용도를 높이기 위한 공간 공유 기술인 NVIDIA의 MPS와 MIG를 비교 평가합니다. 연구 결과에 따르면, MPS는 프로비저닝 옵션을 통해 최대 30%의 성능 향상과 에너지 절감을 제공할 수 있지만, 메모리 경쟁 상황에서는 심각한 성능 저하(약 30% 악화)를 겪을 수 있습니다. 반면, MIG는 완전한 하드웨어 격리를 통해 일관된 개선을 보장하지만, 높은 오버헤드와 유연성 부족으로 인해 특정 시나리오에서 성능 저하가 발생할 수 있다는 트레이드오프를 제시합니다.

핵심 포인트

GPU 공간 공유는 자원 과소 활용 문제를 해결하는 핵심 방법론입니다.
MPS는 높은 유연성을 제공하여 최적의 프로비저닝 옵션 사용 시 성능 향상 및 에너지 효율 개선이 가능합니다.
MPS는 메모리 경쟁 상황에서 심각한 성능 저하를 겪을 수 있어 안정성이 떨어질 수 있습니다.
MIG는 하드웨어 수준의 완전 격리를 통해 일관된 성능을 보장하지만, 오버헤드가 크고 유연성이 낮다는 단점이 있습니다.

현대 GPU 에서 계산 자원의 과소 활용 문제가 점점 더 흔해짐에 따라 이를 완화하기 위해 공간 공유 (spatial sharing) 방법을 통해 여러 애플리케이션이 동시에 GPU 를 사용할 수 있도록 합니다. 본 연구는 이 목표를 달성하기 위한 NVIDIA 의 주요 기술인 Multi-Process Service(MPS) 와 Multi-Instance GPU(MIG) 에 대한 종합 평가를 제시합니다. 우리의 결과는 MPS 의 유연성과 MIG 의 격리 (isolation) 사이의 중요한 트레이드오프를 드러내며, 작업 프로파일 (job profiles) 에 따라 공동 실행 전략을 개선하기 위한 많은 핵심 통찰력을 제공합니다. 가장 유리한 시나리오에서는 MPS 가 리소스 독점화를 피하기 위해 프로비저닝 옵션 (provisioning option) 을 사용하여 성능을 최대 30% 향상시키고 에너지 소비를 약 20% 줄입니다. 그러나 메모리 경쟁 (memory contention) 상황에서는 심각한 저하를 겪어 성능이 약 30% 나 악화됩니다. 반면, MIG 의 완전한 하드웨어 격리는 메모리 경쟁을 해결하여 더 일관된 개선을 이끌어내지만, 이러한 이득은 높은 오버헤드로 인해 완화되며, 그 유연하지 않은 방식 (rigid scheme) 은 특정 경우에는 성능을 저하시킬 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

MPS 와 MIG 기술을 활용한 GPU 공간 공동 실행에 대한 종합 평가

요약

핵심 포인트

댓글