arXiv논문2026. 05. 07. 13:56

RangeGuard: 효율적이고 제한된 근사 오류 수정을 통한 신뢰할 수 있는 DNN

요약

RangeGuard는 DRAM의 밀도 증가로 인한 잦은 비트 플립 및 다비트 오류에 취약한 심층 신경망(DNN) 모델의 안정성을 높이기 위한 메타데이터 중심 오류 수정 프레임워크입니다. 기존 방식과 달리, 원본 비트를 보호하는 대신 각 값의 수치적 범위를 포착하는 '범위 식별자(RIDs)'를 인코딩합니다. 이 RIDs는 메모리 오염으로 인한 해로운 의미적 편차에만 집중하여 오류를 수정하고, 유용한 변동은 무시함으로써 높은 효율성과 신뢰성을 동시에 제공합니다.

핵심 포인트

RangeGuard는 DRAM의 다비트 오류 증가로 인해 불안정해진 DNN 및 LLM 추론을 위한 새로운 오류 수정 프레임워크입니다.
기존 방식처럼 비트를 직접 보호하는 대신, 값의 수치적 범위(RIDs)를 메타데이터로 인코딩하여 메모리 오염에 대비합니다.
이 접근법은 해로운 의미적 편차만을 감지하고 복원함으로써, 제한된 중복성 예산 하에서도 높은 신뢰성을 유지할 수 있습니다.
RangeGuard는 16비트 패리티만으로도 64비트 이상의 비트 플립을 견딜 수 있어 효율성이 매우 높습니다.

DRAM 가 밀도와 3D 통합을 채택함에 따라 원본 오류 발생률이 증가하고 다비트 오류는 더 이상 드문 일이 아닙니다. 이러한 오류는 심층 신경망 (DNN) 에 심각한 영향을 미칠 수 있습니다: DNN 는 작은 수치적 교란에 견딜 수 있지만, 무작위 비트 플립은 극단적인 아웃라이어 (outlier) 를 생성하여 정확도를 급격히 저하시킵니다. 대규모 언어 모델 (LLM) 은 특히 취약합니다. 주의 (attention), 잔류 (residual), 및 정규화 (normalization) 레이어는 하나의 손상된 활성화 (activation) 를 여러 레이어에 걸쳐 증폭하고 보존할 수 있으며, 추론을 불안정하게 만들 수 있기 때문입니다. 이 논문은 제한된 근사 수정 (bounded approximate correction) 을 기반으로 강력한 신뢰성과 높은 효율성을 제공하는 메타데이터 중심 오류 수정 프레임워크인 RangeGuard 를 소개합니다. 원본 비트를 보호하는 대신, RangeGuard 는 각 값의 수치적 범위를 포착하는 컴팩트한 범위 식별자 (Range Identifiers, RIDs) 를 인코딩합니다. 이러한 컴팩트한 메타데이터는 제한된 중복성을 효율적으로 활용하고, 해로운 의미적 편차를 나타내는 범위 변화를 보호에 집중시키며, 유익한 범위 내 변동을 무시합니다. 범위 변화를 감지할 때, RangeGuard 는 올바른 범위를 복원하고 대표 값을 대입하여 오류 크기가 범위 내에서 제한되도록 보장합니다. RID 를 기반으로 RangeGuard 는 GPU 메모리에 존재하는 16 비트의 패리티 (parity) 만으로도 64+ 비트가 플립되는 것을 견딜 수 있으며, 눈에 띄는 정확도 손실 없이 이를 수행할 수 있습니다. 의미적 범위 보호를 도입함으로써, RangeGuard 는 빈번한 메모리 오류와 제한적인 중복성 예산 하에서도 신뢰할 수 있는 DNN 실행을 가능하게 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

RangeGuard: 효율적이고 제한된 근사 오류 수정을 통한 신뢰할 수 있는 DNN

요약

핵심 포인트

댓글