Dropout은 2014년의 혁신이었습니다. 현대의 LLM은 왜 이를 더 이상 사용하지 않는가

Srivastava, Hinton 및 공동 저자들은 2014년 기념비적인 JMLR 논문에서 dropout을 소개하며, 신경망(neural networks) 분야에서 10년 동안 널리 사용되는 계기를 마련했습니다. 2026년까지 GPT-3, LLaMA, PaLM을 포함한 대부분의 프런티어 LLM(frontier LLMs)은 이를 완전히 제외했으며, 연구에 따르면 dropout은 단일 에포크(single-epoch) 사전 학습(pretraining)에 적극적으로 해를 끼치는 것으로 나타났습니다.

2014년, Nitish Srivastava, Geoffrey Hinton 및 세 명의 협력자들은 _Journal of Machine Learning Research_에 매우 단순해 보이는 아이디어를 발표했습니다. 바로 훈련(training) 중에 뉴런(neurons)의 일부를 무작위로 비활성화하는 것입니다. 전체 논문은 12년 전에 발표되었지만, dropout의 영향력은 오늘날 거의 모든 딥러닝 (deep learning) 강의, 튜토리얼, 입문용 프레임워크에서 여전히 느껴집니다.

하지만 2026년의 대부분의 튜토리얼이 조용히 생략하고 있는 사실이 있습니다. 실제 서비스 중인 가장 큰 언어 모델(language models)들은 더 이상 이를 사용하지 않는다는 점입니다.

Dropout의 작동 원리

메커니즘은 간단합니다. 각 훈련 반복(training iteration)마다 확률 p로 뉴런의 무작위 하위 집합이 침묵 상태(0으로 설정)가 됩니다. 일반적인 값은 p = 0.2(뉴런의 20%를 드롭)에서 p = 0.5 사이입니다. 드롭된 뉴런은 해당 단계에서 활성화(activations)를 앞으로 전파하지도 않고, 역방향으로 그래디언트(gradient) 업데이트를 받지도 않습니다.

그 효과는 어떤 단일 뉴런도 필수불가결한 존재가 될 수 없게 만드는 것입니다. 네트워크는 학습된 표현(representations)을 여러 경로에 분산하도록 강제되며, 이는 훈련 데이터를 암기하게 만드는 뉴런의 취약한 공동 적응(co-adaptation)을 방지합니다.

고전적 dropout에 관한 주요 사실:

Dropout 비율 p는 하이퍼파라미터(hyperparameter)입니다. 0.2~0.5가 대부분의 실질적인 사용 사례를 커버합니다.
드롭된 뉴런은 순전파(forward pass)와 역전파(backward pass) 모두에서 제외됩니다.
추론(inference) 시에는 dropout이 비활성화됩니다 — 모든 뉴런이 활성화됩니다.
각 훈련 반복은 사실상 서로 다른 하위 네트워크(subnetwork)를 훈련시킵니다.
하위 네트워크 간의 앙상블(ensemble) 효과가 일반화(generalization) 성능 향상의 이론적 기초입니다.

추론(inference) 시에는 전체 네트워크가 실행되며, 이는 최적화(optimization) 과정 동안 훈련된 기하급수적으로 많은 하위 네트워크(subnetworks)들의 암묵적인 평균(implicit average) 역할을 합니다. 이것이 앙상블 해석(ensemble interpretation)이며, 이는 매우 견고합니다. Srivastava 등은 컴퓨터 비전(computer vision), 음성 인식(speech recognition), 문서 분류(document classification), 그리고 계산 생물학(computational biology) 벤치마크 전반에 걸쳐 최첨단(state-of-the-art) 결과를 입증했습니다.

Dropout이 매우 효과적이었던 이유 — 그리고 왜 그 맥락이 더 이상 적용되지 않는가

Dropout은 특정한 문제를 해결했습니다: 바로 수백 에포크(epochs) 동안 훈련되는 고용량 네트워크(high-capacity networks)와 결합된 중소규모 데이터셋의 문제입니다. 그러한 영역에서 신경망은 일반화 가능한 패턴을 학습하기보다 훈련 예시를 암기(memorize)해 버립니다. 무작위 뉴런 비활성화(Random neuron silencing)는 이러한 암기 경로를 차단합니다.

현대 LLM의 훈련 방식은 범주적으로 다릅니다:

단일 에포크 사전 훈련 (Single-epoch pretraining). LLaMA-3 및 GPT-3와 같은 모델들은 훈련 토큰을 정확히 한 번씩만 봅니다. 1조 개의 토큰을 단 한 번만 통과할 때, 네트워크는 개별 예시를 암기할 기회를 갖지 못하며, 과적합(overfitting)은 지배적인 실패 모드가 아닙니다.
대규모 데이터가 자연스러운 규제(regularization) 역할을 수행합니다. (LLaMA-3-8B가 그랬던 것처럼) 15조 개의 토큰으로 훈련된 70억 파라미터 모델은 매우 방대한 다양성을 마주하기 때문에, 그 어떤 개별 뉴런 연관성도 특정 예시에 과적합될 수 없습니다.
Dropout은 대규모 학습 속도를 늦춥니다. ACL 2025에 발표된 실증 연구(Drop Dropout on Single-Epoch Language Model Pretraining)는 다양한 Dropout 비율을 적용하여 BERT 스타일 모델과 자기회귀(autoregressive) 모델(Pythia 160M 및 1.4B)을 테스트했습니다. 언어 모델링(language modeling), 질의응답(question answering), 자연어 추론(natural language inference)에서의 다운스트림 성능은 Dropout을 완전히 제거했을 때 일관되게 향상되었습니다.

결과적으로: 지난 3년 동안 가장 유능한 모델들 중 하나인 GPT-3, PaLM, LLaMA, Chinchilla, Gopher 등은 사전 훈련 규제 도구(pretraining regularizer)로 Dropout을 명시하지 않습니다. PaLM은 사전 훈련 중에 0의 비율을 사용했으며, 과적합 위험이 다시 나타나는 소규모 데이터셋에 대한 미세 조정(fine-tuning) 시에만 0.1이라는 적은 비율을 남겨두었습니다.

Dropout이 여전히 제 역할을 하는 곳

최첨단(frontier) LLM들이 이를 사용하지 않는다고 해서 퇴출을 의미하는 것은 아닙니다. Dropout은 다음 세 가지 맥락에서 여전히 적절한 도구로 남아 있습니다.

소규모 데이터셋에 대한 미세 조정 (Fine-tuning). 사전 학습된(pretrained) 모델을 제한된 레이블 예시가 있는 좁은 작업에 적응시킬 때, 과적합(overfitting) 위험이 급증합니다. 마지막 레이어(final layers)에 0.1~0.3의 Dropout 비율을 적용하는 것은 여전히 표준적인 관행입니다.

분류 및 회귀 작업을 위한 인코더 (Encoder) 아키텍처. 분류, 순위 지정(ranking), 또는 회귀 — 개방형 생성(open-ended generation)보다 과적합에 더 취약한 작업들 — 을 위해 사용되는 BERT 스타일의 모델들은 Dropout으로부터 계속해서 이득을 얻고 있습니다. 특히 클라이언트당 데이터가 적은 연합 학습 (federated learning) 환경에서 더욱 그러합니다. 연합 LLM 미세 조정(DropPEFT)에 관한 2025년 3월 논문에 따르면, 표준 PEFT 베이스라인과 비교했을 때 수렴 속도가 1.3~~6.3배 빨라졌고 메모리 사용량(memory footprint)은 40~~67% 감소했다고 보고되었습니다.

제한된 코퍼스(corpora)에 대한 다중 에포크 (Multi-epoch) 학습. 의료, 법률, 과학 등 제한된 전문 데이터로 학습되는 도메인 특화 모델들은 Dropout이 해결하기 위해 설계되었던 원래의 과적합 문제에 직면합니다. Google의 과학 중심 120B 파라미터 모델인 Galactica는 큐레이션된 데이터를 반복해서 학습하기 때문에 정확히 Dropout을 통합했습니다.

더 넓은 진화: Dropout을 대체한 것들

이 분야는 규제화 (regularization)를 포기한 것이 아니라, 규모(scale)에 맞는 더 나은 도구들을 찾아낸 것입니다.

가중치 감쇠 (Weight decay) (파라미터에 대한 L2 규제화): 수십억 개의 파라미터를 가진 모델로 깔끔하게 확장 가능합니다.
LayerNorm 및 BatchNorm: 무작위적인 비활성화(silencing) 없이도 학습 역학을 안정화하고 공적응 (co-adaptation)을 줄입니다.
데이터 규모 그 자체: Dropout이 인위적으로 근사화했던 다양성을 제공합니다.
구조적 Dropout 변형 (Structured dropout variants) — DropPath, DropBlock, LayerDrop —: 개별 뉴런 대신 전체 구조적 단위(structural units)를 탈락시킴으로써 합성곱(convolutional) 및 트랜스포머 (transformer) 아키텍처에서 더 효과적으로 작동합니다.

2026년을 지배하고 있는 아키텍처들의 경우, 구조적이고 적응형인 변형 기술들이 기존의 비구조적(unstructured) 기법을 대체했습니다.

주목해야 할 점

열려 있는 연구 과제는 합성 데이터 생성 (synthetic data generation) 및 선호도 최적화 (preference optimization)에 의해 주도되는 추세에 따라, LLM이 점점 더 작고 정제된 고품질 데이터셋으로 미세 조정 (fine-tune)됨에 따라 어떤 일이 발생하는가 하는 점입니다. 이러한 영역에서는 dropout이 설계되었던 과적합 (overfitting) 조건이 다시 나타납니다. 고전적인 dropout, 구조적 변형 (structured variants), 또는 완전히 다른 정규화 (regularization) 전략 중 무엇이 대규모 미세 조정에 최적인지는 여전히 활발한 연구 분야이며, 2025–2026 ACL 및 NeurIPS 논문집에서 새로운 연구 결과들이 정기적으로 발표되고 있습니다.

출처: Srivastava et al., 2014 — Dropout: A Simple Way to Prevent Neural Networks from Overfitting, JMLR 15 | Drop Dropout on Single-Epoch LM Pretraining, ACL 2025

출처: towards_ai

원문 게시지: gentic.news