arXiv논문2026. 05. 08. 12:55

방향 일관성(Directional Consistency)을 보완적인 최적화 신호로 활용한 GONO 프레임워크

요약

본 논문은 딥러닝 최적화 과정에서 방향성 정렬(directional consistency)과 손실 수렴이 분리될 수 있다는 현상을 발견하고, 이를 활용한 새로운 옵티마이저 GONO를 제안합니다. 기존 옵티마이저들은 기울기 크기에만 의존하여 평탄 지대나 안장점 등을 구분하는 데 한계가 있습니다. GONO는 연속적인 기울기 방향의 코사인 유사도($cc_t$)를 측정하여, 방향성이 일관될 때는 모멘텀을 증폭시키고 진동할 때는 억제함으로써 최적화 성능을 개선합니다.

핵심 포인트

딥러닝 최적화에서 '방향성 정렬'과 '손실 수렴'은 독립적인 현상일 수 있다.
기존 옵티마이저(Adam, SGD 등)는 기울기의 크기에만 의존하여 방향성의 시간적 일관성을 활용하지 못한다.
GONO(Gradient-Oriented Norm-Adaptive Optimizer)는 연속 기울기 코사인 유사도($cc_t$)를 기반으로 모멘텀 계수 $eta_1$을 적응적으로 조절하는 옵티마이저이다.
GONO는 Adam과 동일한 $O(1/ ext{sqrt}(T))$ 수렴 속도를 보장하며, 방향성 신호가 불충분할 때는 Adam으로 작동한다.

우리는 딥러닝 최적화에서 충분히 탐구되지 않은 현상, 즉 방향 정렬(directional alignment)과 손실 수렴(loss convergence)이 분리될 수 있다는 점을 식별하고 공식화합니다. 옵티마이저(optimizer)는 연속적인 그래디언트 코사인 유사도(consecutive gradient cosine similarity)를 통해 측정되는 방향 일관성($cc_t$)이 거의 완벽한 수준임에도 불구하고 손실 값은 높거나 느리게 감소하는 모습을 보일 수 있습니다. 이 관찰 결과는 Adam, SGD, RMSprop과 같은 기존 옵티마이저들이 그래디언트 방향의 시간적 일관성(temporal consistency)을 활용하는 명시적인 메커니즘이 부족하며, 대신 평탄 지대(plateaus), 안장점(saddle points), 그리고 진정한 수렴(genuine convergence)을 구별하지 못하는 크기 기반 신호에 의존하고 있음을 보여줍니다. 이러한 동기를 바탕으로, 우리는 GONO (Gradient-Oriented Norm-Adaptive Optimizer)를 소개합니다. GONO는 $cc_t$를 기반으로 Adam의 모멘텀 계수 $eta_1$을 조정하여, 방향 일관성이 높을 때는 모멘텀을 증폭시키고 진동(oscillation)이 발생할 때는 모멘텀을 억제합니다. 우리는 GONO가 Adam과 동일한 $O(1/ ext{sqrt}(T))$ 수렴 속도를 달성하며, 해당 신호가 정보력이 없을 경우 정확히 Adam으로 축소됨을 증명합니다. 실험적으로, $cc_t$는 그래디언트 노름(gradient norm)의 F1 점수 0.45 대비 F1=1.00으로 진동 감지 능력을 보여주었으며, GONO는 MNIST (98.15%), CIFAR-10 (43.14%), 그리고 ResNet-18 (75.44%)에서 AdamW와 경쟁할 만한 성능을 유지하며, 방향 정렬이 이론적으로 근거가 있고 실질적인 최적화 신호임을 확립했습니다. 코드: https://github.com/victordaniel/gono-optimizer

AI 자동 생성 콘텐츠

원문 바로가기

방향 일관성(Directional Consistency)을 보완적인 최적화 신호로 활용한 GONO 프레임워크

요약

핵심 포인트

댓글