arXiv논문2026. 05. 13. 04:14

손실(Loss)을 수정하고 반지름(Radius)은 아니다: Sharpness-Aware Minimization의 적대적 교란에 대한 재고찰

요약

본 논문은 모델의 일반화 성능 향상을 위해 사용되는 Sharpness-Aware Minimization (SAM) 기법에 대한 근본적인 재고찰을 제시한다. 기존 SAM이 1차 근사(linearized surrogate)에 의존하는 한계를 지적하며, 최적화를 곡률(curvature) 개념에 초점을 맞춘 새로운 방법인 Loss-Equated SAM (LE-SAM)을 제안한다. LE-SAM은 그래디언트 노름 중심의 학습 신호를 제거하고 곡률 지배 항으로 최적화 방향을 전환하여, 기존 SAM보다 일관되고 우수한 일반화 성능을 달성함을 입증했다.

핵심 포인트

기존 SAM은 고정된 파라미터 공간 반경 내에서 손실의 최악의 경우를 최소화하지만, 이는 1차 근사(linearized surrogate)에 의존하는 한계가 있다.
본 연구는 일반화 성능을 결정하는 핵심이 '손실' 자체의 수정과 '반지름' 개념이 아님을 주장하며 접근 방식을 재정립했다.
새롭게 제안된 Loss-Equated SAM (LE-SAM)은 그래디언트 노름 지배 학습 신호를 제거하고 최적화를 곡률(curvature)-지배 항으로 이동시킨다.
광범위한 실험 결과, LE-SAM은 기존의 SAM 및 그 변형들보다 일관되게 우수한 일반화 성능을 보여주며 SOTA를 달성한다.

Sharpness-Aware Minimization (SAM)은 고정된 파라미터 공간 반경 이웃(fixed parameter-space radius neighborhood) 내에서 최악의 경우 손실(worst-case loss)을 최소화함으로써 일반화 성능을 향상시킵니다. SAM과 그 변형들은 주로 1차 근사선형 대리 함수(first-order linearized surrogate)에 의존하는 반면, 평평한 최소점(flat minima)은 본질적으로 2차적인 (곡률) 개념입니다. 우리는 이러한 불일치(mismatch)를 재검토하고, 고정된 교란 반지름과 고정된 손실 공간 예산으로 전통적인 SAM 메커니즘을 역전시킨 Loss-Equated SAM (LE-SAM)을 제안합니다. 이는 효과적으로 그래디언트 노름 지배 학습 신호(gradient-norm-dominated learning signals)를 제거하고 최적화를 곡률 지배 항(curvature-dominated terms) 쪽으로 이동시킵니다. 다양한 벤치마크와 태스크 전반에 걸친 광범위한 실험들은 LE-SAM이 SAM과 심지어 그 변형들보다 일관되게 우수한 성능을 보이며, 최첨단(state-of-the-art) 성능을 달성하는 강력한 일반화 능력을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

손실(Loss)을 수정하고 반지름(Radius)은 아니다: Sharpness-Aware Minimization의 적대적 교란에 대한 재고찰

요약

핵심 포인트

댓글