ProWAFT: FPGA 기반 CNN 가속기를 위한 워크로드 인식 및 동적 결함 허용을 위한 ROMA-LPD 인스턴스
요약
FPGA 기반 CNN 가속기의 신뢰성을 높이기 위해 워크로드 인식 및 동적 결함 허용을 지원하는 ProWAFT 프레임워크를 제안합니다. 부분 재구성을 통해 TMR을 선택적으로 적용함으로써 에너지 오버헤드와 지연 시간을 최소화하면서도 높은 작업 성공률을 유지합니다.
핵심 포인트
- FPGA 기반 CNN 추론 시 발생하는 일시적 결함 문제 해결
- 부분 재구성을 활용한 선택적 TMR 적용으로 에너지 효율 최적화
- 워크로드 임계성 및 결함 전파 모델링을 통한 복합 비용 최소화
- Xilinx Zynq UltraScale+ 플랫폼에서 높은 처리량과 신뢰성 입증
SRAM 기반 FPGA는 네트워크 에지(network edge)에서 에너지 및 지연 시간 제약이 있는 CNN 추론을 위한 매력적인 플랫폼을 제공하지만, 일시적 결함(transient faults)은 신뢰성을 저해하는 무음 오류(silent errors)를 초래할 수 있습니다. 상시 중복성(Always-on redundancy, 예: 전체 TMR)은 정확성을 향상시키지만 상당한 성능 및 에너지 오버헤드를 발생시키며, 반응형 복구(reactive recovery)는 임계 경로(critical path)에서 허용 불가능한 지연 시간을 도입할 수 있습니다. 우리는 재구성 가능한 파티션(reconfigurable partitions) 전체에 TMR을 선택적으로 적용하기 위해 부분 재구성(partial reconfiguration)을 사용하는, FPGA 기반 CNN 가속기를 위한 선제적 워크로드 인식 결함 허용 프레임워크인 \textbf{ProWAFT}를 제안합니다. ProWAFT는 워크로드 임계성(workload criticality)을 정량화하고, 결함 전파(fault propagation) 및 재구성 오버헤드를 모델링하며, 지연 시간, 에너지 및 신뢰성 리스크에 대한 복합 목적 함수(composite objective)를 최소화하는 구성을 선택합니다. 6개의 재구성 가능 영역을 갖춘 Xilinx Zynq UltraScale+ ZCU104 플랫폼에 구현되었으며, 시간에 따라 변화하는 SEU 주입 환경에서 ResNet-18, MobileNetV2 및 EfficientNet-Lite로부터 파생된 500개 작업 트레이스(trace)를 통해 평가된 결과, ProWAFT는 낮은 온라인 결정 오버헤드와 함께 높은 작업 성공률 및 베이스라인에 근접한 처리량(throughput)을 유지하면서 정적 TMR 및 반응형 재구성보다 낮은 복합 비용을 달성했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기