arXiv논문2026. 05. 12. 12:55

Bregman 기반 최적화기에서 희소성 제어를 위한 적응형 정규화

요약

본 논문은 심층 신경망의 희소 훈련 과정에서 발생하는 정규화 매개변수($ ext{L}_1$ 페널티 등)에 대한 민감도 문제를 다룹니다. 기존 방법들은 $ ext{L}_1$ 페널티 계수 $ ext{L}$을 통해 간접적으로만 희소성을 제어하며, 이 과정이 복잡하고 사용자가 원하는 희소성 비율을 찾기 위해 광범위한 탐색(sweeps)이 필요합니다. 이에 대한 해결책으로 연구진은 '적응형 정규화(adaptive regula)' 기법을 제안하여, 최적의 희소성을 보다 효율적으로 달성할 수 있는 방법을 제시합니다.

핵심 포인트

희소 훈련(Sparse training)은 신경망의 계산 및 메모리 비용 절감에 효과적입니다.
기존 $ ext{L}_1$ 페널티 기반 최적화는 정규화 매개변수($ ext{L}$)가 희소성을 제어하는 과정이 비직관적이고 민감합니다.
Bregman 기반 최적화기(LinBreg, AdaBreg)의 경우, $ ext{L}$ 값에 큰 변화에도 불구하고 동일한 희소성에 도달하여 사용자가 원하는 목표 희소성 달성이 어렵습니다.
연구진은 이러한 문제를 해결하기 위해 '적응형 정규화(adaptive regula)' 기법을 제안합니다.

희소 훈련(Sparse training)은 심층 신경망의 메모리 및 계산 비용을 줄여줍니다. 하지만 $ ext{L}_1$ 페널티를 추가하는 것과 같은 희소 최적화 방법들은 종종 정규화 매개변수 $\lambda$를 통해 간접적으로만 희소성을 제어하며, 이 $\lambda$가 최종 희소성 비율로 매핑되는 과정은 자명하지 않습니다. 저희 실험에서 우리는 이러한 매개변수 민감도가 Bregman 기반 최적화기에서 특히 두드러지다는 것을 발견했습니다. 구체적으로, LinBreg와 AdaBreg라는 두 변형 모델은 최대 두 자릿수(two orders of magnitude) 차이가 나는 $\lambda$ 값에서도 동일한 희소성에 도달하며, 사용자가 지정한 희소성을 달성하기 위해 비용이 많이 드는 시행착오 탐색(trial-and-error sweeps)을 필요로 합니다. 이에 대응하여, 저희는 적응형 정규화(adaptive regula)

AI 자동 생성 콘텐츠

원문 바로가기

Bregman 기반 최적화기에서 희소성 제어를 위한 적응형 정규화

요약

핵심 포인트

댓글