신경망 학습에서의 상전이(Phase transitions): 손실 곡선(Loss curve)이 알려주지 않는 것들

손실 곡선(Loss curve)은 학습 과정(Training run)을 들여다보는 표준적인 방법입니다. 곡선이 내려가면 (좋음), 내려가는 것을 멈추면 (나쁨), 혹은 다시 올라가면 (과적합, Overfit)이라고 판단합니다. 이러한 멘탈 모델(Mental model)은 유용하지만 불완전합니다. 학습 과정 _내부_에서 발생하는 현상 중 손실 곡선이 숨기거나 적극적으로 잘못 표현하는, 이미 잘 문서화된 현상이 적어도 두 가지 있습니다.

두 현상 모두 상전이(Phase transitions)입니다. 두 현상 모두 여러분이 어떻게 학습시키고 언제 멈춰야 하는지에 대한 실질적인 함의를 가집니다.

1. 이중 하강 (Double descent)

고전적인 편향-분산 트레이드오프(Bias-variance tradeoff)는 U자형 테스트 오차 곡선을 예측합니다. 모델 복잡도(Model complexity)가 증가함에 따라, 처음에는 과소적합(Underfit)하다가, 최적의 지점(Sweet spot)에 도달한 후, 과적합(Overfit)하게 됩니다. 즉, 테스트 오차가 내려갔다가 다시 올라갑니다.

수십 년 동안 이것이 멘탈 모델이었습니다. 규제(Regularize)를 적용하고, 과매개변수화(Overparameterize)하지 마십시오. 곡선의 왼쪽에 머무르십시오.

그러다 대규모 환경에서 다소 불편한 사실이 문서화되었습니다. U자형은 전체 그림의 일부일 뿐이라는 점입니다. 만약 모델 크기를 보간 임계값(Interpolation threshold) — 모델이 모든 학습 데이터를 정확하게 맞출 수 있는 지점 — 너머로 계속 키운다면, 테스트 오차는 때때로 다시 내려갑니다. 즉시 내려가는 것은 아닙니다. 하지만 결국, 더 큰 모델이

요약하자면 다음과 같습니다: 모델이 훈련 데이터(training data)를 암기하면(훈련 손실(training loss)은 낮고, 테스트 손실(test loss)은 높은 상태), 보통은 거기서 멈추게 됩니다. 하지만 계속해서 훈련을 진행하면 — 때로는 수천 단계(steps)를 더 진행하면 — 일반화(generalization) 능력이 갑자기 도약합니다. 모델은 내부적으로 취약한 암기 솔루션(memorization solution)에서 깔끔한 알고리즘 솔루션(algorithmic solution)으로 구조를 재편합니다.

이 전이는 매우 급격합니다. 이것이 마치 상전이(phase change)처럼 보이는 이유는 실제로 상전이일 가능성이 높기 때문입니다.

기계론적 해석 가능성(Mechanistic interpretability) 연구(Neel Nanda의 모듈러 산술(modular arithmetic) 모델 분석이 가장 명확한 사례입니다)는 구조적으로 어떤 일이 일어나는지 보여줍니다. 즉, 전이 기간 동안 암기 솔루션과 일반화 솔루션이 모델 내에 공존합니다. 일반화 회로(generalizing circuits)는 천천히 성장하는 반면, 규제 압력(regularization pressure)은 암기 회로(memorizing circuits)를 침식시킵니다. 일반화 솔루션이 지배적이게 될 때, 비로소 도약을 목격하게 됩니다.

실질적인 시사점은 다음과 같습니다: 훈련 손실의 수렴(training loss convergence)이 학습의 수렴(learning convergence)과 동일한 것은 아닙니다. 순수하게 훈련 손실에만 기반한 조기 종료(early stopping)는 그로킹(grokking)까지 단 한 에포크(epoch)만을 남겨둔 실행을 종료해 버릴 수도 있습니다. 이것이 장난감 과제(toy tasks)를 넘어 실제 운영 규모(production-scale)의 모델로 일반화될 수 있는지는 아직 미해결 연구 과제입니다. 규모가 커질수록 신호를 분리해내기가 더 어렵기 때문입니다. 하지만 이 원칙은 반드시 염두에 둘 가치가 있습니다.

이들을 연결하는 것

두 현상은 공통된 구조를 공유합니다: 상전이 경계(phase boundary)가 존재하며, 흥미로운 동작은 그 경계를 넘어선 후에 발생한다는 점입니다.

고전적인 머신러닝(ML) 직관은 이러한 경계의 안쪽 영역에 머무는 모델과 훈련 실행을 위해 구축되었습니다. 볼록 손실(convex loss)을 최소화하고, 규제(regularize)를 적용하며, 검증 손실(validation loss)이 최저점에 도달했을 때 멈춥니다. 그 프레임워크는 작동합니다. 다만 현대의 거대 모델들이 실제로 존재하는 영역에서 어떤 일이 일어나는지는 예측하지 못할 뿐입니다.

과잉 매개변수화(overparameterized) 영역은 이제 예외가 아닌 표준입니다. GPT 스타일의 아키텍처는 고전적인 보간 임계값(interpolation threshold)을 수 차례의 차수(orders of magnitude)만큼 넘어섰습니다. 훈련 과정은 길고, 모델은 거대합니다. 과거의 규칙들은 더 이상 온전히 적용되지 않습니다.

이것이 규칙이 없다는 뜻은 아닙니다. 규칙이 달라졌으며, 우리는 여전히 그 규칙들을 파악해 나가는 과정에 있다는 의미입니다.

표본의 관점 (The specimen angle)

OVERFITS는 머신러닝 (ML) 개념들을 박물관의 표본처럼 다룹니다. 기록되고, 라벨이 붙여지며, 학술적 도판의 미학을 담아 천 위에 압착된 표본 말입니다. 이중 하강 (Double descent)과 그로킹 (Grokking)은 단순히 흥미롭기 때문이 아니라, 머신러닝을 공학이라기보다 자연사 (Natural history)처럼 느껴지게 만드는 바로 그 유형의 현상을 나타내기 때문에 이 컬렉션에 포함됩니다. 즉, 이해하기 전에 관찰하고, 설명할 수 있기 전에 분류하며, 마침내 설명이 제시되었을 때 다른 모든 것을 바라보는 방식을 바꾸어 놓는 현상들입니다.

A model that remembered too much. → https://overfits.ai

신경망 학습에서의 상전이(Phase transitions): 손실 곡선(Loss curve)이 알려주지 않는 것들

요약

핵심 포인트

1. 이중 하강 (Double descent)

이들을 연결하는 것

표본의 관점 (The specimen angle)

댓글