본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 07. 13:54

모든 오류가 동일하지는 않음: 오픈소스 RISC-V 벡터 클러스터 Spatz 의 전이 오버 민감성 분석

요약

본 연구는 오픈소스 RISC-V 벡터 클러스터 Spatz의 전이 오버 민감성을 SET 및 SEU 오류 모델 하에서 분석했습니다. 10만 회의 오류 주입 실험 결과, 주요 오류 현상은 데이터 부패(FD)로 나타났으며, 특히 TCDM 영역이 데이터 부패의 핵심 원인으로 밝혀졌습니다. 또한, FP8 정밀도가 가장 낮은 출력 영향도를 보였고, 지수부(Exponent)를 표적으로 한 오류가 가장 심각한 데이터 손상 사건을 유발하므로, 특정 경로에 대한 선택적 보호 조치가 필요함을 제안합니다.

핵심 포인트

  • 오픈소스 RISC-V 벡터 클러스터 Spatz의 전이 오버 민감성을 SET/SEU 오류 모델로 분석함.
  • 주요 오류 현상은 데이터 부패(FD)이며, TCDM (Temporary Cache/Data Memory) 영역에서 주로 발생함.
  • FP8 정밀도가 가장 낮은 출력 영향도를 보였으며, FP16 Widening MatMul이 데이터 부패 확산 및 RMSE 감소에 효과적임.
  • 지수부(Exponent)를 표적으로 한 오류가 가장 심각한 데이터 손상 사건을 유발하므로, 해당 경로에 대한 선택적 보호가 권장됨.

본 연구에서는 오픈소스 RISC-V 벡터 클러스터 Spatz 를 SET (Single Event Upset) 와 SEU (Single Event Transient) 오류 모델 하에서 전이 오버 민감성 (Transient-Fault Sensitivity) 을 분석합니다. MatMul 과 Widening MatMul 구성에 대한 10 만 회 (100,000) 의 오류 주입 실험을 통해 모든 평가된 워크로드에서 주요 오류 현상은 데이터 부패 (Faulty Data Corruption, FD) 로, SET 캠페인에서는 최소 86%, SEU 캠페인에서는 최소 91% 를 차지합니다. 모듈 수준에서는 SET 민감도가 벡터 실행 경로에 집중되어 있으며, TCDM (Temporary Cache/Data Memory) 이 데이터 부패 현상의 주요 원인입니다. 우리는 FP32, FP16, BP16, FP8 정밀도에 따른 평균 오류 출력 수와 RMSE 를 분석하여 SDC (Severe Data Corruption) 의 심각도를 정량화합니다. 전체적으로 FP8 의 출력 영향이 가장 낮으며, FP16 Widening MatMul 은 FP16 MatMul 에 비해 데이터 부패의 확산과 RMSE 를 감소시킵니다. 반면, 우리의 실험에서는 Widening 이 FP8 에 미치는 영향은 제한적입니다. 마지막으로 지수 (Exponent) 를 표적으로 한 오류가 가장 심각한 SDC 사건을 유발하며, FP32 와 BP16 에서 가장 큰 편차가 관측되어 가장 영향력 있는 데이터 경로와 오류 사례에 대한 선택적 보호를 권장합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0