신뢰성 높은 대규모 DNN을 위한 ECC의 효과적이고 메모리 효율적인 대안
요약
현대 딥러닝 모델이 자동차 시스템이나 데이터 센터와 같은 안전 필수 영역에 사용되면서 일시적인 하드웨어 결함으로부터의 신뢰성 확보가 중요해지고 있습니다. 본 논문은 메모리 집약적 DL 워크로드에서 ECC를 적용하는 기존 방식의 한계를 극복하고, 우수한 신뢰성을 유지하면서도 메모리 효율적인 두 가지 대안(MSET 및 CEP)을 제안합니다.
핵심 포인트
- 딥러닝 모델은 안전 필수 시스템에 배포되면서 하드웨어 결함으로부터의 높은 신뢰성이 요구된다.
- 기존 ECC 방식은 메모리 집약적인 DL 워크로드에서 효율성 및 오버헤드 문제가 발생할 수 있다.
- MSET는 CNN 및 ViT 매개변수 중 가장 취약한 비트만 선택적으로 강화하여 효율성을 높인다.
- CEP(세부 보호)를 통해 모델에 대한 세밀하고 정교한 오류 보호 메커니즘을 제공한다.
현대의 딥러닝 (DL) 워크로드는 자동차 시스템이나 하이퍼스케일 데이터 센터와 같은 안전 필수 영역에 점점 더 많이 배포되고 있으며, 이러한 환경에서는 일시적인 하드웨어 결함(transient hardware faults)이 시스템 신뢰성에 심각한 위협을 가합니다. 이러한 워크로드는 메모리 집약적이며, 그 정확한 기능은 일반적으로 에러 수정 코드 (Error Correction Codes, ECCs)를 사용하여 보호되는 메모리에 저장된 모델 매개변수에 크게 의존합니다. 본 논문에서는 이러한 모델에 대한 ECC의 영향을 연구하고, 우수한 신뢰성을 달성하는 두 가지 경량 대안을 제안합니다. 첫 번째 접근 방식인 MSET은 CNN 및 ViT 매개변수에서 가장 취약한 비트만 선택적으로 강화하며, 두 번째 접근 방식인 CEP는 세밀한 보호를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기