손실(Loss)을 수정하고 반지름(Radius)은 아니다: Sharpness-Aware Minimization의 적대적 교란에 대한 재고찰
요약
본 논문은 모델의 일반화 성능 향상을 위해 사용되는 Sharpness-Aware Minimization (SAM) 기법에 대한 근본적인 재고찰을 제시한다. 기존 SAM이 1차 근사(linearized surrogate)에 의존하는 한계를 지적하며, 최적화를 곡률(curvature) 개념에 초점을 맞춘 새로운 방법인 Loss-Equated SAM (LE-SAM)을 제안한다. LE-SAM은 그래디언트 노름 중심의 학습 신호를 제거하고 곡률 지배 항으로 최적화 방향을 전환하여, 기존 SAM보다 일관되고 우수한 일반화 성능을 달성함을 입증했다.
핵심 포인트
- 기존 SAM은 고정된 파라미터 공간 반경 내에서 손실의 최악의 경우를 최소화하지만, 이는 1차 근사(linearized surrogate)에 의존하는 한계가 있다.
- 본 연구는 일반화 성능을 결정하는 핵심이 '손실' 자체의 수정과 '반지름' 개념이 아님을 주장하며 접근 방식을 재정립했다.
- 새롭게 제안된 Loss-Equated SAM (LE-SAM)은 그래디언트 노름 지배 학습 신호를 제거하고 최적화를 곡률(curvature)-지배 항으로 이동시킨다.
- 광범위한 실험 결과, LE-SAM은 기존의 SAM 및 그 변형들보다 일관되게 우수한 일반화 성능을 보여주며 SOTA를 달성한다.
Sharpness-Aware Minimization (SAM)은 고정된 파라미터 공간 반경 이웃(fixed parameter-space radius neighborhood) 내에서 최악의 경우 손실(worst-case loss)을 최소화함으로써 일반화 성능을 향상시킵니다. SAM과 그 변형들은 주로 1차 근사선형 대리 함수(first-order linearized surrogate)에 의존하는 반면, 평평한 최소점(flat minima)은 본질적으로 2차적인 (곡률) 개념입니다. 우리는 이러한 불일치(mismatch)를 재검토하고, 고정된 교란 반지름과 고정된 손실 공간 예산으로 전통적인 SAM 메커니즘을 역전시킨 Loss-Equated SAM (LE-SAM)을 제안합니다. 이는 효과적으로 그래디언트 노름 지배 학습 신호(gradient-norm-dominated learning signals)를 제거하고 최적화를 곡률 지배 항(curvature-dominated terms) 쪽으로 이동시킵니다. 다양한 벤치마크와 태스크 전반에 걸친 광범위한 실험들은 LE-SAM이 SAM과 심지어 그 변형들보다 일관되게 우수한 성능을 보이며, 최첨단(state-of-the-art) 성능을 달성하는 강력한 일반화 능력을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기