본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 07. 13:57

무음 데이터 부패의 해부학: GPU 오류 패턴 연구 및 모델링 가이드

요약

본 기사는 대규모 언어 모델 훈련 환경에서 발생하는 '무음 데이터 부패(SDC)' 문제를 다루며, 이 문제로 인해 GPU 클러스터의 신뢰성이 위협받는 상황을 설명합니다. 연구진은 63개 CUDA 마이크로 벤치마크에 게이트 레벨 결함 주입을 수행하여 SDC 특성을 분석했으며, 그 결과 NaN/무한대 값의 비율이 낮고 단일 비트 플립 이벤트가 전체의 일부만을 차지하며 부패 주소에 주기성이 있다는 통계적 사실을 밝혀냈습니다. 이러한 발견은 분포 기반의 상위 수준 결함 모델링 및 실제 GPU 아키텍처의 회복력 평가를 위한 현실적인 소프트웨어 기반 접근 방식을 제시합니다.

핵심 포인트

  • 무음 데이터 부패(SDC)는 대규모 LLM 훈련 환경에서 심각한 신뢰성 위협 요인이다.
  • 연구진은 63개 CUDA 마이크로 벤치마크에 게이트 레벨 결함 주입을 통해 SDC 특성을 분석했다.
  • 분석 결과, NaN/무한대 값의 발생률이 예상보다 낮고(1.01%), 단일 비트 플립 이벤트가 전체 부패의 상당 부분을 차지하지 않는다.
  • 부패 주소에서 주기성(periodicity)이 관찰되었으며, 이는 모델링에 중요한 통계적 근거를 제공한다.

무음 데이터 부패 (Silent Data Corruption, SDC) 는 대규모 언어 모델을 훈련하기 위해 사용되는 대규모 GPU 클러스터의 신뢰성을 위협하지만, 그 희귀성과 명시적인 오류 신호의 부재로 인해 정확한 상위 수준 모델링이 어렵습니다. 이러한 공백을 해결하기 위해 우리는 63 개 CUDA 마이크로 벤치마크를 사용하여 생산 등급 데이터센터 GPU 에서 게이트 레벨 스탭크-애트 (stuck-at) 결함 주입을 수행했습니다. 이는 300 만 시간 이상의 시뮬레이터 시간을 소비했습니다. 우리는 부패 유형, 비트 플립 (bit-flip) 행동, 와프 정렬 공간 상관관계에 따라 GPU SDC 특성을 추출했습니다. 우리의 결과는 NaN/+INF/-INF 가 SDC 결과의 1.01% 만을 차지하고, 단일 비트 플립이 비트 플립 이벤트의 40% 미만이며, 부패 주소가 주기성을 나타낸다는 것을 보여줍니다. 이러한 통계를 바탕으로 분포에 기반한 상위 수준 결함 모델링 및 생산 등급 GPU 아키텍처의 회복력 평가에 대한 현실적인 소프트웨어 기반 결함 주입이 필요합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0