Zenn헤드라인2026. 05. 15. 11:15

Sharp Minima는 정말로 일반화를 설명하는가: 대규모 배치 학습과 재매개변수화(reparameterization)로부터의 반론

요약

본 기사는 심층 학습의 일반화(generalization)를 설명하는 주요 가설 중 하나인 'sharp minima' 가설에 대해 비판적으로 검토한다. 이 가설은 평탄한 극소점(flat minima)이 미지의 데이터에도 잘 일반화된다고 주장하지만, 필자는 sharpness가 예측 함수 자체의 성질인지 아니면 파라미터 공간상의 손실 곡면의 모습인지를 질문하며 이론적 한계를 지적한다. 특히 ReLU와 같은 심층 네트워크는 비음 동차성(non-negative homogeneity) 때문에 동일한 예측 함수를 나타내는 무수히 많은 파라미터를 가질 수 있으며, 일반적인 재매개변수화(reparameterization)를 통해 손실 곡면의 기하학적 구조가 좌표 의존적으로 변할 수 있음을 보여준다. 따라서 sharpness는 측정하는 '좌표계', '근방', '측정 지표'에 따라 달라질 수 있어, 기존 가설의 적용에 신중해야 한다.

핵심 포인트

일반화 성능을 설명하는 sharp minima 가설은 평탄한 극소점(flat minima)이 일반화에 유리하다는 직관적 관점을 제시한다.
sharpness가 예측 함수 자체의 성질인지, 아니면 파라미터 공간상의 손실 곡면의 기하학적 구조인지를 명확히 할 필요가 있다.
ReLU 네트워크와 같은 심층 모델은 비음 동차성(non-negative homogeneity) 때문에 동일한 출력을 내는 다양한 파라미터를 가질 수 있다.
일반적인 재매개변수화(reparameterization)를 허용하면 손실 곡면의 형태가 측정하는 좌표계나 계량에 따라 크게 변할 수 있어, sharpness 개념이 좌표 의존적임을 보여준다.

Sharp Minima는 정말로 일반화를 설명하는가: 대규모 배치 학습과 재매변수화(reparameterization)로부터의 반론

심층 학습(Deep Learning)에서의 일반화(generalization)는 여전히 완전히 이해되지 않았다. 뉴럴 네트워크(Neural Network)는 훈련 데이터를 거의 완벽하게 기억할 수 있을 정도로 큰 표현 능력을 가지고 있다. 그럼에도 불구하고, 실제로는 미지의 데이터에 대해 비교적 잘 작동한다. 이 경험적 사실은 심층 학습이 실용적으로 이만큼 성공할 수 있었던 이유인 동시에, 이론적으로는 매우 다루기 어려운 문제이기도 하다.

이 일반화를 설명하기 위한 유력한 가설 중 하나가 sharp minima 가설이다. 직관은 단순하다. 훈련 후의 파라미터(parameter)를 조금 움직여도 손실(loss)이 크게 증가하지 않는다면, 그 해는 "평탄(flat)"하다. 반면, 조금만 움직여도 손실이 급격히 증가한다면 그 해는 "날카롭다(sharp)"
. 이때, 평탄한 극소점(local minima)은 파라미터 섭동(perturbation)에 대해 안정적이며 미지의 데이터에도 잘 일반화된다. 반면, 날카로운 극소점은 훈련 데이터에 과도하게 적합(overfitting)되어 있어 일반화하기 어렵다. 이것이 sharp minima 가설의 기본적인 관점이다.

이 직관은 자연스럽다. 손실 함수를 1차원 곡선으로 그리면, 골짜기 바닥이 넓은 해가 골짜기 바닥이 바늘처럼 가느다란 해보다 안정적으로 보인다. 또한, 저정밀도 연산, 가중치 노이즈(weight noise), 양자화(quantization), 파라미터 섭동 등을 고려해도 평탄한 해가 더 강건(robust)해 보인다. 대규모 배치 학습(large-batch learning)이 sharp minima에 빠지기 쉽고, 소규모 배치 학습(small-batch learning)이 flat minima에 빠지기 쉽다는 경험적 관찰과도 궁합이 좋다. 따라서 "flat minima는 일반화하고, sharp minima는 일반화하지 않는다"라는 설명은 얼핏 보면 매우 설득력이 있다.

하지만 여기서 물어야 할 것은, 그 sharpness는 무엇의 sharpness인가 하는 점이다. 그것은 예측 함수 그 자체의 성질인가? 아니면 어떤 파라미터를 선택했을 때의 손실 곡면(loss surface)의 모습인가?

심층 뉴럴 네트워크에서는 이 차이를 무시할 수 없다. 왜냐하면 서로 다른 파라미터임에도 불구하고 완전히 동일한 예측 함수를 나타내는 자유도가 대량으로 존재하기 때문이다. 예를 들어 ReLU 네트워크에서는 어떤 층의 가중치를 $\alpha$배 하고, 다음 층의 가중치를 $\alpha^{-1}$배 해도 네트워크 전체의 입출력 관계는 변하지 않는다. 이 변환은 모델의 예측도, 훈련 손실도, 일반화 성능도 바꾸지 않는다. 하지만 파라미터 공간상에서 본 손실 곡면의 형태, 즉 flatness나 sharpness는 변할 수 있다.

여기에 Dinh et al.의 Sharp Minima Can Generalize For Deep Nets의 핵심적인 주장이 있다.

이 논문은 sharp minima라는 직관 그 자체를 완전히 부정하는 것이 아니다. 오히려 기존의 flatness / sharpness 정의를 심층 네트워크의 파라미터 공간에 그대로 적용하는 것의 위험성을 보여준다. 특히 ReLU와 같은 rectifier 유닛을 가진 심층 네트워크에서는 비음 동차성(non-negative homogeneity)에 의해 동일한 예측 함수를 나타내는 파라미터의 연속적인 군(family)이 존재한다. 그 군 위를 이동하는 것만으로도 동일한 일반화 성능을 유지한 채 극소점을 날카롭게 보이게 만들 수 있다. 나아가 일반적인 재매개변수화(reparameterization)를 허용하면 손실 곡면의 기하학적 구조 그 자체를 크게 바꿀 수 있다.

본 기사의 주장은 다음과 같다.

물론 이것이 "flatness는 일절 의미가 없다"라는 주장은 아니다. 동일한 아키텍처, 동일한 정규화(normalization), 동일한 파라미터화(parameterization), 동일한 최적화 기법(optimization method) 하에서 비교한다면 flatness는 경험적으로 유용한 지표가 될 수 있다. SAM과 같은 sharpness-aware한 최적화 기법이 실제로 효과를 발휘하는 경우도 있다. 하지만 그러한 논의를 하기 위해서는 "어떤 좌표계에서", "어떤 근방(neighborhood)에서", "어떤 계량(metric)을 사용하여" sharpness를 측정하고 있는지를 명시해야 한다.

본 기사에서는 먼저 flatness / sharpness의 대표적인 정의를 확인한다. 다음으로 ReLU 네트워크의 비음 동차성이 동일한 예측 함수를 나타내는 무수히 많은 파라미터를 생성하는 것을 살펴본다. 그 후 volume $\epsilon$-flatness, Hessian에 기반한 sharpness, $\epsilon$-sharpness가 동일한 함수를 유지한 채 어떻게 변해버리는지를 추적한다. 마지막으로 더 일반적인 재매개변수화에 의해 손실 곡면의 형태가 얼마나 좌표 의존적으로 변할 수 있는지 살펴본다.

Flat / Sharp란 무엇을 측정하고 있는가

Flat / Sharp란 무엇을 측정하고 있는가

sharp minima 가설을 고려하려면, 우선 flatness / sharpness가 무엇을 측정하고 있는지를 명확히 할 필요가 있다.

직관적으로, 어떤 극소점(minima)의 주변에서 파라미터(parameter)를 조금 움직여도 손실(loss)이 크게 증가하지 않는다면, 그 극소점은 flat하다. 반면, 조금만 움직여도 손실이 크게 증가한다면, 그 극소점은 sharp하다.

하지만 이 설명만으로는 불충분하다. "조금 움직인다"는 것이 어떤 공간에서, 어떤 거리를 기준으로 움직이는 것인지가 정해져 있지 않기 때문이다.

심층 학습 (Deep Learning)에서 flatness / sharpness를 논할 때, 많은 경우 손실 함수를 파라미터 공간 상의 함수 $L(\theta)$로 본다. 여기서 $\theta \in \Theta$는 파라미터이며, $f_\theta$는 그 파라미터가 나타내는 예측 함수(prediction function)이다.

두 파라미터 $(\theta, \theta') \in \Theta^2$가 임의의 입력 $x \in \mathcal{X}$에 대하여

$f_\theta(x) = f_{\theta'}(x)$

를 만족한다면, 이 둘은 관측상 동일한 모델이다. 훈련 데이터에 대한 예측도, 미지의 데이터에 대한 예측도 같아진다. 따라서 일반화 성능(generalization performance)도 같다.

반면, flatness / sharpness는 $f_\theta$ 그 자체가 아니라, $L(\theta)$를 파라미터 공간 상의 곡면으로 보았을 때의 국소적 또는 대역적 형상을 측정한다. 여기에 긴장 관계가 존재한다.

$$\boxed{
\begin{aligned}&
\text{일반화 성능은 예측 함수의 성질이다.}&
\text{sharpness는 파라미터 공간에 투영된 기하학적 성질이다.}
\end{aligned}}
$$
이 둘은 일반적으로 같지 않다.

Dinh et al.이 다루는 대표적인 flatness / sharpness의 정의는 다음과 같이 정리할 수 있다.

지표	무엇을 측정하는가	나중에 발생하는 문제
volume $\epsilon$-flatness	극소점 $\theta$를 포함하는 저손실 연결 성분 $C(L, \theta, \epsilon)$의 부피를 본다	동치 방향으로 무한히 뻗어나감
Hessian-based measure	극소점 근방의 곡률을 Hessian의 스펙트럼 노름(spectral norm)이나 trace로 측정한다	스케일 변환(scale transformation)에 따라 변함
$\epsilon$-sharpness	반지름 $\epsilon$인 유클리드 구 $B_2(\epsilon, \theta)$ 상에서의 최대 손실 증가를 본다	근방에 포함되는 모델이 변함

먼저, volume $\epsilon$-flatness는 극소점 $\theta$를 포함하는 저손실 연결 성분의 부피로 정의된다. $C(L, \theta, \epsilon)$를 $\theta$를 포함하며, 임의의 $\theta' \in C(L, \theta, \epsilon)$에 대하여

$L(\theta') < L(\theta) + \epsilon$

를 만족하는 최대 연결 집합이라고 하자. 이때, volume $\epsilon$-flatness는

$\mathrm{Vol}\bigl(C(L, \theta, \epsilon)\bigr)$

이다. 저손실 영역이 넓으면 flat, 좁으면 sharp하다고 보는 정의이다.

다음으로, $\epsilon$-sharpness는 $\theta$의 반지름 $\epsilon$ 근방에서 손실이 최대 얼마나 증가하는지를 측정한다. 원 논문에서는 $B_2(\epsilon, \theta)$를 $\theta$를 중심으로 하는 반지름 $\epsilon$인 유클리드 구(Euclidean ball)로 정의하며, 비음수 값의 손실 함수 $L$에 대해 다음에 비례하는 양을 $\epsilon$-sharpness로 사용한다.

$\frac{\max_{\theta' \in B_2(\epsilon, \theta)} \Bigl(L(\theta') - L(\theta)\Bigr)}{1 + L(\theta)}$.

분모의 $1 + L(\theta)$는 정규화 항(normalization term)이며, 손실 값의 스케일 차이를 완화하기 위해 포함되었다.

그림 1: 평탄성 개념의 도식화. $\theta$의 함수로서의 손실 $L$을 검은색으로 나타내고 있다. 빨간색 영역의 높이가 $\epsilon$인 경우, 그 폭은 volume $\epsilon$-flatness를 나타낸다. 폭이 $2\epsilon$인 경우, 그 높이는 $\epsilon$-sharpness를 나타낸다.

마지막으로, Hessian에 기반한 sharpness가 있다.

원 논문에서는 벡터 노름(vector norm)과 행렬 노름(matrix norm)을 구분하기 위해, 행렬 노름을 삼중선으로...

표기하고 있다. 본 기사에서도 이 절 이후로는 $|||A|||_2$를 행렬 $A$의 스펙트럼 노름 (spectral norm), $|||A|||_F$를 Frobenius 노름 (Frobenius norm)으로 표기한다.

극소점 $\theta$가 임계점 (critical point)이며, $\nabla L(\theta)=0$을 만족한다고 하자. 이때, $\theta$의 근방에서 $L$을 2차 Taylor 전개하면,

$L(\theta')=L(\theta)+\frac{1}{2}(\theta'-\theta)(\nabla^2 L)(\theta)(\theta'-\theta)^\top+o(|\theta'-\theta|_2^2)$
이다. 이 2차 근사 하에서, $\theta$에서의 $\epsilon$-sharpness는

$\frac{|||(\nabla^2 L)(\theta)|||_2\epsilon^2}{2(1+L(\theta))}$
에 의해 근사된다.

$\epsilon$-sharpness와 Hessian의 관계

원 논문의 식은 임계점 주변의 2차 근사에 기반하고 있다. $\theta'=\theta+\delta$라고 두면, $\nabla L(\theta)=0$에 의해

$L(\theta+\delta)-L(\theta)=\frac{1}{2}\delta^\top H(\theta)\delta+o(|\delta|_2^2)$
이다. 단, $H(\theta)=\nabla^2 L(\theta)$로 하였다.

반경 $\epsilon$의 근방에서 최대 손실 증가를 보기 위해,

$\max_{|\delta|2\leq\epsilon}\left(L(\theta+\delta)-L(\theta)\right)\approx\frac{1}{2}\max{|\delta|_2\leq\epsilon}\delta^\top H(\theta)\delta$
를 고려한다. 극소점 근방에서 $H(\theta)$를 반양정치 (semi-positive definite)로 간주할 수 있는 경우, 이 최댓값은 최대 고유값 (maximum eigenvalue) 방향에서 달성되며,

$\max_{|\delta|2\leq\epsilon}\delta^\top H(\theta)\delta=\lambda{\max}(H(\theta))\epsilon^2$
이다. 이 경우, $\lambda_{\max}(H(\theta))=|||H(\theta)|||_2$이므로, 원 논문의 표기인

$\mathrm{Sharp}_{\epsilon}(\theta)\approx\frac{|||H(\theta)|||_2\epsilon^2}{2(1+L(\theta))}$
를 얻을 수 있다.

보다 엄밀하게는, 대칭 행렬 (symmetric matrix) 일반에서는 $|||H|||2=\max_i|\lambda_i|$이며, 최대 고유값 $\lambda{\max}(H)$와 항상 일치하는 것은 아니다. 다만, 극소점 근방에서 Hessian을 반양정치로 간주하는 문맥에서는 양자가 일치한다.

지금까지의 정의는 모두 자연스러워 보인다. 하지만 공통된 전제가 있다.

그것은 파라미터 벡터들 사이의 통상적인 거리를 모델들 사이의 유사도로 그대로 간주하고 있다는 점이다. $\epsilon$-sharpness는 유클리드 구 (Euclidean ball)를 사용한다. Hessian sharpness는 파라미터 좌표에 관한 2차 미분을 사용한다. volume $\epsilon$-flatness는 파라미터 공간상의 부피를 사용한다.

만약 서로 다른 파라미터가 항상 서로 다른 예측 함수를 나타낸다면, 이 사고방식은 비교적 자연스럽다. 하지만 심층 신경망 (deep neural network)에서는 서로 다른 파라미터가 동일한 예측 함수를 나타낼 수 있다. 이때, 양자의 훈련 손실과 일반화 성능은 동일함에도 불구하고, flatness / sharpness가 동일하다는 보장은 없다.

여기에 문제의 핵심이 있다.

ReLU 네트워크에서는 「같은 함수를 나타내는 별개의 파라미터」가 연속적으로 존재한다

제1장에서는 flatness / sharpness가 파라미터 공간상에서 정의되는 양임을 확인했다. 다음으로 문제가 되는 것은 심층 네트워크에서는 서로 다른 파라미터가 동일한 예측 함수를 나타낸다는 점이다.

원 논문에서는 선형 출력층을 가진 deep rectified feedforward network를 고려한다. $K$개의 가중치 행렬 $(\theta_k)_{k\leq K}$가 있으며,

$n_k=\mathrm{dim}\bigl(\mathrm{vec}(\theta_k)\bigr),\qquad n=\sum_{k=1}^{K}n_k$
라고 하자. 이때, 모델 출력은 개념적으로

$y=\phi_{\mathrm{rect}}\Bigl(\phi_{\mathrm{rect}}\bigl(\cdots\phi_{\mathrm{rect}}(x\cdot\theta_1)\cdots\bigr)\cdot\theta_{K-1}\Bigr)\cdot\theta_K$
라고 쓸 수 있다. 여기서 $\phi_{\mathrm{rect}}$는 요소별 rectified activation function (rectified 활성화 함수)이며, 전형적인 예는 ReLU이다.

ReLU 함수를

$\phi_{\mathrm{ReLU}}(z)=\max(z,0)$
라고 하자. 이때, 임의의 $\alpha>0$에 대하여,

$\phi_{\mathrm{ReLU}}(\alpha z)=\alpha \phi_{\mathrm{ReLU}}(z)$
가 성립한다. 이를 ReLU의 **비음의 동차성 (non-negative homogeneity)**이라고 한다.

중요한 점은 ReLU의 입력을 양의 상수로 배가하면, 출력도 동일한 상수로 배가된다는 것이다. 이 성질에 의해, 어떤 층의 가중치를 확대하고 그 다음 층의 가중치를 반대로 축소하더라도, 네트워크 전체의 입출력 관계는 변하지 않는다.

구체적인 예로, 1 hidden layer (은닉층)를 가진 rectified neural network를 생각하자.

$y=\phi_{\mathrm{rect}}(x\cdot\theta_1)\cdot\theta_2$.
여기서, 임의의 $\alpha>0$에 대하여 다음 변환을 정의한다.

$T_\alpha:(\theta_1,\theta_2)\mapsto(\alpha\theta_1,\alpha^{-1}\theta_2)$.
이를 원 논문에 따라 **$\alpha$-scale transformation ($\alpha$-스케일 변환)**이라고 부른다.

이때, 비음의 동차성에 의해

$\begin{aligned}
f_{\alpha\theta_1,\alpha^{-1}\theta_2}(x)&=\phi_{\mathrm{rect}}(x\cdot(\alpha\theta_1))\cdot(\alpha^{-1}\theta_2)\
&=\alpha\phi_{\mathrm{rect}}(x\cdot\theta_1)\cdot(\alpha^{-1}\theta_2)\=\f_{\theta_1,\theta_2}(x)\n\end{aligned}$
가 된다. 따라서 $T_\alpha$는 파라미터를 변경하지만, 네트워크가 나타내는 함수는 변경하지 않는다.

$\theta_1\neq 0$ 이고 $\theta_2\neq 0$ 이라면,

${T_\alpha(\theta_1,\theta_2)\mid \alpha>0}$
은 모두 동일한 함수를 나타내는 무한 집합이다. 이 궤도(orbit) 위에서는 예측 함수도, 훈련 손실(training loss)도, 테스트 데이터에 대한 예측도 변하지 않는다. 따라서 일반화 성능(generalization performance)도 변하지 않는다.

그럼에도 불구하고, 파라미터 공간상의 위치는 변한다. $\alpha$를 크게 하면 제1층의 가중치는 커지고, 제2층의 가중치는 작아진다. 반대로 $\alpha$를 작게 하면 제1층의 가중치는 작아지고, 제2층의 가중치는 커진다.

여기서 sharp minima 가설에 대한 논점이 명확해진다.

동일한 예측 함수를 나타내는 두 파라미터에 대해 sharpness만 변한다면, 그 sharpness는 예측 함수 자체의 성질이 아니다. 그것은 동일한 함수를 파라미터 공간의 어느 위치에서 표현하고 있는지에 따라 달라지는 양이다.

이후에는 이러한 비식별성(non-identifiability)이 구체적으로 어떤 파탄을 일으키는지 살펴본다.

반론 1: volume $\epsilon$-flatness는 동치 방향으로 무한히 뻗어 있다

먼저, volume $\epsilon$-flatness를 보자.

이는 극소점을 포함하는 저손실 영역(low-loss region)의 부피를 측정하는 지표이다. 저손실 영역이 넓으면 flat, 좁으면 sharp하다고 해석한다.

원 논문의 정리 2는, 1 hidden layer를 가진 rectified neural network

$y=\phi_{\mathrm{rect}}(x\cdot\theta_1)\cdot\theta_2$
를 고려한다. $\theta=(\theta_1,\theta_2)$가 극소점이며,

$\theta_1\neq 0,\qquad\theta_2\neq 0$
를 만족한다고 하자. 이때, 임의의 $\epsilon>0$에 대하여 $C(L,\theta,\epsilon)$은 무한한 부피를 가진다.

논의의 골격은 다음과 같다.

먼저, $\theta$의 주변에 손실(loss)이 $L(\theta)+\epsilon$ 미만으로 유지되는 작은 영역을 취한다. 손실 함수 $L$이 파라미터에 대해 연속이고, $C(L,\theta,\epsilon)$이 $\theta$를 포함하는 열린 집합(open set)이므로, 충분히 작은 $r>0$을 취하면

$B_{\infty}(r,\theta) \subset C(L,\theta,\epsilon)$

이 된다. 여기서

$B_{\infty}(r,\theta)={\theta' \in \Theta \mid |\theta'-\theta|_{\infty} \leq r}$

이다.

또한, $\theta_1 \neq 0$ 이고 $\theta_2 \neq 0$ 이므로, $r$을 충분히 작게 취하면 이 $B_{\infty}(r,\theta)$가 $\theta'1=0$이 되는 퇴화 영역(degenerate region)과 교차하지 않도록 할 수 있다. $B{\infty}(r,\theta)$의 부피를 $v$라고 쓰자.

상자(Box)의 부피 유도

지금

$\theta=(\theta_1,\theta_2),\qquad\theta_1\in\mathbb{R}^{n_1},\quad\theta_2\in\mathbb{R}^{n_2}$

이므로, 파라미터 전체의 차원은 $d=n_1+n_2$이다.

또한, $B_{\infty}(r,\theta)$는 각 좌표에 대해

$|\theta'_j-\theta_j| \le r$

을 만족하는 점 전체이다. 즉, 각 좌표 방향으로는 $[\theta_j-r, \theta_j+r]$이라는 길이 $2r$의 구간을 가진다.

따라서 $B_{\infty}(r,\theta)$는 $d$차원의 상자이며, 그 부피는

$\underbrace{(2r)\times\cdots\times(2r)}_{d\text{ 개}}=(2r)^d=(2r)^{n_1+n_2}$

가 된다.

다음으로, $\alpha$-scale transformation을 이 상자에 작용시킨다. $T_{\alpha}$의 야코비안 행렬식(Jacobian determinant)은

$\det J(T_{\alpha})=\det \begin{pmatrix} \alpha I_{n_1} & 0 \ 0 & \alpha^{-1} I_{n_2} \end{pmatrix} =\alpha^{n_1}(\alpha^{-1})^{n_2} =\alpha^{n_1-n_2}$

이다. 따라서,

$\mathrm{Vol}\left(T_{\alpha}(B_{\infty}(r,\theta))\right)=v\alpha^{n_1-n_2}$

가 된다.

원래의 상자 $B_{\infty}(r,\theta)$를 $\theta_1$ 방향으로는 $\alpha$배로 늘리고, $\theta_2$ 방향으로는 $\alpha^{-1}$배로 축소한다. 그 결과, 상자의 부피는 $\alpha^{n_1-n_2}$배가 된다.

여기서 경우 나누기가 발생한다.

$n_1 \neq n_2$인 경우

3.1

만약 $n_1 \neq n_2$라면, $T_{\alpha}(B_{\infty}(r,\theta))$의 부피는 $\alpha$에 의해 변화한다.

$n_1 > n_2$라면 $\alpha \to +\infty$로 보낼 때,

$v\alpha^{n_1-n_2} \to \infty$

이다. 반대로 $n_1 < n_2$라면 $\alpha \to 0$으로 보낼 때,

$v\alpha^{n_1-n_2} \to \infty$

이다.

한편, $T_{\alpha}$는 예측 함수를 바꾸지 않는다. 그러므로 $B_{\infty}(r,\theta)$ 내의 각 점이 $L(\theta)+\epsilon$ 미만의 손실을 가진다면, 그 상(image)인 $T_{\alpha}(B_{\infty}(r,\theta))$도 동일한 손실 값을 유지한다. 즉, 저손실 영역(low-loss region) 안에 임의로 큰 부피를 가진 영역을 구성할 수 있다.

따라서 $C(L,\theta,\epsilon)$은 무한한 부피를 가진다.

$n_1 = n_2$인 경우

3.2

다음으로, $n_1 = n_2$인 경우를 생각한다. 이 경우,

$\alpha^{n_1-n_2} = \alpha^0 = 1$

이므로, 각 상 $T_{\alpha}(B_{\infty}(r,\theta))$의 부피는 항상 $v$이다. 거기서 동일한 양의 부피를 가진 집합을 무한히, 서로 교차하지 않게 나열한다.

원 논문에서는 먼저

$C' = \bigcup_{\alpha'>0} T_{\alpha'}(B_{\infty}(r,\theta))$

라고 둔다. $C'$은 $L(\theta)$의 $\epsilon$-구간 내에서 손실이 유지되는 연결 영역(connected region)이다.

여기서,

$\alpha=2\frac{|\theta_1|\infty+r}{|\theta_1|\infty-r}$라고 하자. $r$은 충분히 작으며, $|\theta_1|_\infty-r>0$을 만족하도록 취한다.

이때,

$B_\infty(r,\theta)=B_\infty(r,\theta_1)\times B_\infty(r,\theta_2)$
이며,

$T_\alpha(B_\infty(r,\theta))=B_\infty(\alpha r,\alpha\theta_1)\times B_\infty(\alpha^{-1}r,\alpha^{-1}\theta_2)$
가 된다. 이 $\alpha$를 선택함으로써,

$T_\alpha(B_\infty(r,\theta))\cap B_\infty(r,\theta)=\emptyset$
이 성립한다.

마찬가지로,

$B_\infty(r,\theta),\quad T_\alpha(B_\infty(r,\theta)),\quad T_\alpha^2(B_\infty(r,\theta)),\quad\ldots$
은 서로소(disjoint)이며, 각각 부피 $v$를 가진다. 또한,

$T_\alpha^k(B_\infty(r,\theta))=T_{\alpha^k}(B_\infty(r,\theta)) \subset C'$
이다. 따라서,

$\mathrm{Vol}(C')\geq v+v+v+\cdots=\infty$
가 된다.

$C'$은 $C(L,\theta,\epsilon)$ 안에 포함되는 저손실 연결 영역(low-loss connected region)이므로, $C(L,\theta,\epsilon)$ 또한 무한한 부피를 가진다.

그림 2: ReLU의 스케일링 동치성(scaling equivalence)에 의해, 저손실 영역 안에 $B_\infty(r,\theta), T_\alpha(B_\infty(r,\theta)), T_\alpha^2(B_\infty(r,\theta)), \ldots$를 배치할 수 있다. 이것들이 서로 교차하지 않는 양의 부피를 가진 영역이라면, 저손실 영역은 무한한 부피를 가진다.

즉, volume $\epsilon$-flatness는 무한대가 된다.

여기서 일어나고 있는 일은, 극소점이 본질적으로 '넓은 골짜기'에 있다는 이야기가 아니다. 문제는 ReLU 네트워크에 스케일링 동치성이 있다는 것이다. 이 동치 방향에서는 예측 함수도, 손실도, 일반화 성능도 변하지 않는다. 그 때문에 저손실 영역이 파라미터 공간 내에서 무한히 늘어난다.

volume $\epsilon$-flatness는 ReLU 네트워크에서 저손실 영역의 넓이를 올바르게 비교할 수 없다. 동일한 함수를 나타내는 동치 방향으로 저손실 영역이 무한히 뻗어나가기 때문이다.

따라서 volume $\epsilon$-flatness는 적어도 rectified neural network에 대해서는 일반화 성능을 구분하기 위한 유효한 지표가 되지 않는다.

반론 2: Hessian sharpness는 동일한 함수인 상태로 크게 만들 수 있다

제3장에서는 volume $\epsilon$-flatness가 동치 방향에 의해 붕괴되는 것을 보았다. 저손실 영역의 부피를 측정하려 해도, 동일한 함수를 나타내는 방향으로 영역이 늘어나기 때문에 그 부피는 일반화 성능과 무관하게 커지게 된다.

그렇다면, 더 국소적인(local) 양을 사용하면 되는 것일까?

대표적인 것이 Hessian에 의한 sharpness이다. 제1장에서 보았듯이, 극소점 근방의 손실은 Hessian에 의해 이차 근사(second-order approximation)된다. 따라서 Hessian의 스펙트럼 노름(spectral norm)이나 trace는 국소적인 곡률(curvature)의 척도로 사용된다.

하지만 이 국소적인 지표 또한 $\alpha$-scale transformation에 대해 불변(invariant)하지 않다. 원 논문의 정리(Theorem) 3과 정리 4는 이 점을 명시하고 있다.

먼저,

$L(\theta_1,\theta_2)=L(\alpha\theta_1,\alpha^{-1}\theta_2)$
이다. 이는 $T_\alpha$가 예측 함수를 바꾸지 않는다는 사실로부터 따른다.

여기서 $T_\alpha$를 블록 대각 행렬(block diagonal matrix)로 쓰면 다음과 같다. 즉,

$T_\alpha(\theta)=S_\alpha\theta,\qquad S_\alpha=
\begin{bmatrix}
\alpha \mathbb{I}{n_1} & 0\
0 & \alpha^{-1}\mathbb{I}{n_2}
\end{bmatrix}.$
그 역행렬을

$D_\alpha=S_\alpha^{-1}=\begin{bmatrix} \alpha^{-1}\mathbb{I}{n_1} & 0\ 0 & \alpha \mathbb{I}{n_2} \end{bmatrix}$라고 하자.

연쇄 법칙 (Chain Rule)에 의해, 그래디언트 (Gradient)는

$(\nabla L)(T_\alpha(\theta))=(\nabla L)(\theta)D_\alpha$

로 변환된다. 나아가 헤시안 (Hessian)은

$(\nabla^2 L)(T_\alpha(\theta))=D_\alpha^\top(\nabla^2 L)(\theta)D_\alpha$

로 변환된다. $D_\alpha$는 대각 블록 행렬 (Diagonal block matrix)이므로, 이 변환은 헤시안의 각 블록에 서로 다른 스케일 (Scale)을 부여한다.

헤시안을

$(\nabla^2 L)(\theta)=\begin{bmatrix} H_{11} & H_{12}\ H_{21} & H_{22} \end{bmatrix}$

라고 쓰면,

$(\nabla^2 L)(T_\alpha(\theta))=\begin{bmatrix} \alpha^{-2}H_{11} & H_{12}\ H_{21} & \alpha^2H_{22} \end{bmatrix}$

이다.

이 식으로부터 헤시안의 모습이 스케일에 의존한다는 것을 알 수 있다. $\alpha \to 0$으로 가면 $\alpha^{-2}H_{11}$이 확대된다. 반면, $\alpha \to \infty$로 가면 $\alpha^2H_{22}$가 확대된다.

원 논문의 정리 4 (Theorem 4)는 이를 스펙트럼 노름 (Spectral norm)에 대해 정식화하고 있다.

AI 자동 생성 콘텐츠

원문 바로가기