arXiv논문2026. 05. 12. 00:10

신뢰성 높은 대규모 DNN을 위한 ECC의 효과적이고 메모리 효율적인 대안

요약

현대 딥러닝 모델이 자동차 시스템이나 데이터 센터와 같은 안전 필수 영역에 사용되면서 일시적인 하드웨어 결함으로부터의 신뢰성 확보가 중요해지고 있습니다. 본 논문은 메모리 집약적 DL 워크로드에서 ECC를 적용하는 기존 방식의 한계를 극복하고, 우수한 신뢰성을 유지하면서도 메모리 효율적인 두 가지 대안(MSET 및 CEP)을 제안합니다.

핵심 포인트

딥러닝 모델은 안전 필수 시스템에 배포되면서 하드웨어 결함으로부터의 높은 신뢰성이 요구된다.
기존 ECC 방식은 메모리 집약적인 DL 워크로드에서 효율성 및 오버헤드 문제가 발생할 수 있다.
MSET는 CNN 및 ViT 매개변수 중 가장 취약한 비트만 선택적으로 강화하여 효율성을 높인다.
CEP(세부 보호)를 통해 모델에 대한 세밀하고 정교한 오류 보호 메커니즘을 제공한다.

현대의 딥러닝 (DL) 워크로드는 자동차 시스템이나 하이퍼스케일 데이터 센터와 같은 안전 필수 영역에 점점 더 많이 배포되고 있으며, 이러한 환경에서는 일시적인 하드웨어 결함(transient hardware faults)이 시스템 신뢰성에 심각한 위협을 가합니다. 이러한 워크로드는 메모리 집약적이며, 그 정확한 기능은 일반적으로 에러 수정 코드 (Error Correction Codes, ECCs)를 사용하여 보호되는 메모리에 저장된 모델 매개변수에 크게 의존합니다. 본 논문에서는 이러한 모델에 대한 ECC의 영향을 연구하고, 우수한 신뢰성을 달성하는 두 가지 경량 대안을 제안합니다. 첫 번째 접근 방식인 MSET은 CNN 및 ViT 매개변수에서 가장 취약한 비트만 선택적으로 강화하며, 두 번째 접근 방식인 CEP는 세밀한 보호를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

신뢰성 높은 대규모 DNN을 위한 ECC의 효과적이고 메모리 효율적인 대안

요약

핵심 포인트

댓글