MPS 및 MIG 기술을 활용한 GPU 공간 공동 실행에 대한 종합 평가
요약
본 기사는 GPU 자원의 과소 활용 문제를 해결하기 위한 NVIDIA의 두 가지 주요 기술인 MPS(Multi-Process Service)와 MIG(Multi-Instance GPU)를 비교 평가합니다. 연구 결과에 따르면, MPS는 유연성을 바탕으로 최적화된 시나리오에서 성능을 향상시키고 에너지 효율을 높일 수 있지만, 메모리 경쟁 상황에서는 심각한 성능 저하를 겪습니다. 반면, MIG는 완전한 하드웨어 격리를 제공하여 일관적인 성능 개선을 보장하지만, 높은 오버헤드와 경직성으로 인해 특정 상황에서 성능 저하가 발생할 수 있습니다.
핵심 포인트
- MPS는 유연성이 높고 최적화된 환경에서 최대 30%의 성능 향상 및 20% 에너지 절감을 제공합니다.
- MPS는 메모리 경쟁(memory contention) 상황에 취약하여 심각한 성능 저하를 경험할 수 있습니다.
- MIG는 완전한 하드웨어 격리를 통해 일관되고 예측 가능한 성능 개선을 보장합니다.
- MIG의 이점은 높은 오버헤드로 인해 일부 완화될 수 있으며, 경직성 때문에 특정 상황에서 성능이 저하될 위험이 있습니다.
현대 GPU 에서 계산 자원의 과소 활용이 점점 더 흔해짐을 완화하기 위해 공간 공유 방법은 여러 애플리케이션이 동시에 해당 자원을 사용할 수 있도록 합니다. 본 연구는 이 목표를 달성하기 위한 NVIDIA 의 주요 기술인 Multi-Process Service (MPS) 와 Multi-Instance GPU (MIG) 에 대한 종합 평가를 제시합니다. 우리의 발견은 MPS 의 유연성과 MIG 의 격리 사이의 중요한 트레이드오프를 드러내며, 작업 프로필에 따라 공동 실행 전략을 개선하는 데 많은 핵심 통찰력을 제공합니다. 가장 유리한 시나리오에서는 MPS 가 자원 독점을 피하기 위한 프로비저닝 옵션을 사용하여 성능을 최대 30% 향상시키고 에너지 소비를 약 20% 줄입니다. 그러나 메모리 경쟁 (memory contention) 상황에서는 심각한 저하를 겪어 성능이 약 30% 악화됩니다. 반면, MIG 의 완전한 하드웨어 격리는 메모리 경쟁을 해결하여 더 일관된 개선을 이끌어내지만, 이러한 이득은 더 높은 오버헤드로 인해 완화되며, 그 경직된 방식은 특정 경우에는 성능을 저하시킬 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기