기하학적 인지 기반의 샤프니스 최소화(Sharpness Minimization)를 통한 포트홀 문제 해결
요약
본 논문은 기존 SAM(Sharpness-aware minimization)이 손실 기하학을 고려하지 않고 모든 파라미터 방향을 균일하게 취급하는 한계를 극복하기 위해 LLQR+SAM 프레임워크를 제안합니다. LLQR의 학습된 전처리기를 통해 손실 지형의 기하학적 구조를 포착하고, 이를 SAM의 섭동 과정과 결합하여 '포트홀(potholes)'이라 불리는 국소적으로 날카로운 지점을 효과적으로 탈출합니다. 실험 결과, 이 이중 시간 척도 구조는 비전 및 시퀀스 모델링 벤치마크에서 기존 방식보다 우수한 성능 향상을 입증했습니다.
핵심 포인트
- SAM의 한계인 균일한 파라미터 섭동 문제를 LLQR의 전처리기를 통해 해결
- LLQR은 손실 지형의 매끄러운 기하학적 구조를 포착하는 2차 방법론(second-order method) 제공
- 이중 시간 척도 구조를 통해 국소적인 날카로운 지점(potholes)은 탈출하고 넓은 평탄 분지는 유지
- 비전 및 시퀀스 모델링 벤치마크에서 SAM 및 LLQR 단독 사용 대비 성능 향상 확인
샤프니스 인지 최소화 (Sharpness-aware minimization, SAM)는 손실 곡률 (loss curvature)이 높은 방향을 따라 파라미터를 섭동 (perturbing)함으로써 평탄한 최소값 (flat minima)을 유도하지만, 기저에 깔린 손실 기하학 (loss geometry)을 무시한 채 모든 파라미터 방향을 균일하게 취급합니다. 본 논문에서는 SAM을 최근 제안된 LLQR 프레임워크로부터 얻은 학습된 전처리기 (preconditioner)와 결합한 LLQR+SAM을 소개합니다. LLQR은 가장 가파른 경사 하강법 (steepest descent)을 계층별 선형-이차 조절기 (layerwise linear-quadratic regulator) 문제로 재구성하는 2차 방법론 (second-order method)입니다. 전처리기는 희소하게 (sparsely) 업데이트되며 느린 지수 이동 평균 (exponential moving average)으로 유지되므로, 손실 지형 (loss landscape) 기하학의 매끄럽고 저해상도인 모습을 포착합니다. 이후 SAM 섭동은 이 학습된 기하학 위에서 작동하며, 더 빠른 시간 척도 (timescale)로 곡률을 탐색합니다. 우리는 이러한 이중 시간 척도 구조가 단순한 계산상의 편의가 아님을 보여줍니다. 이론적으로, 전처리기는 평균적인 기하학 하에서는 평탄하지만 국소적으로는 날카로운 (potholes, 포트홀) 방향에서 SAM의 탈출 신호를 증폭시킵니다. 반면, 넓고 평탄한 분지 (wide, flat basins)는 안정적으로 유지됩니다. 실험적으로 LLQR+SAM은 표준 비전 (vision) 및 시퀀스 모델링 (sequence modeling) 벤치마크 전반에서 SAM과 LLQR 단독 사용 시보다 일관된 성능 향상을 보여주며, 이는 느린 학습 기하학 (slow learned geometry)과 빠른 샤프니스 교정 (fast sharpness correction)이 진정으로 상호 보완적이라는 견해를 뒷받침합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기