본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 28. 14:36

대규모 모델에 대한 자동 학습률 탐색을 통한 확장 가능한 하이퍼파라미터 발산 앙상블 학습

요약

본 논문은 대규모 신경망 학습 시 GPU 복제본을 활용하여 효율적으로 하이퍼파라미터를 탐색하는 '하이퍼파라미터 발산 앙상블 학습(HDET)' 방법을 제안합니다. HDET는 팬아웃 단계에서 각 복제본이 독립적으로 다양한 하이퍼파라미터를 탐색하고, 컨버지 단계에서 파라미터를 평균화하여 결합합니다. 여기에 모멘텀 기반의 자동 학습률 컨트롤러를 추가함으로써, 별도의 스윕 없이도 최적화 품질과 일반화를 동시에 개선하는 적응형 학습률 일정을 생성할 수 있습니다.

핵심 포인트

  • HDET는 GPU 복제본을 활용하여 하이퍼파라미터 탐색 공간을 효율적으로 확장하며, 통신 오버헤드를 최소화합니다.
  • 팬아웃(Fan-out)과 컨버지(Converge)의 교대 단계 구조를 통해 독립적인 탐색과 파라미터 평균화를 수행합니다.
  • 모멘텀 기반 무경사 메타 업데이트를 통해 성능이 좋은 하이퍼파라미터 조합으로 공유 기본 일정을 자동으로 조정합니다.
  • 학습률뿐만 아니라 드롭아웃 비율, 가중치 감쇠 계수 등 모델 아키텍처에 관계없이 모든 스칼라 하이퍼파라미터에 적용 가능합니다.

데이터 병렬 확률적 경사 하강법 (data-parallel stochastic gradient descent) 을 사용하여 대규모 신경망을 학습시키는 과정에서는 N 개의 GPU 복제본 (replicas) 을 할당하여 효과적으로 동일한 업데이트를 계산합니다. 이 관행은 학습률 구성의 풍부한 공간을 학습 과정에서 전혀 탐색하지 않게 만듭니다. 우리는 이러한 복제본을 거의 통신 오버헤드 없이 동시 학습률 탐색에 재사용하는 하이퍼파라미터 발산 앙상블 학습 (Hyperparameter-Divergent Ensemble Training, HDET) 방법을 제안합니다. HDET 는 교대 단계로 작동하며, 구조적이고 대칭적인 분포의 학습률 하에서 복제본이 독립적으로 학습하는 팬아웃 (fan-out) 단계와 모든 복제본에 걸쳐 매 T 단마다 AllReduce 를 통해 파라미터를 평균화하는 컨버지 (converge) 단계로 구성됩니다. 이 앙상블 기반 위에 구축하여 우리는 복제본 간의 상대적 훈련 손실을 성능 신호로 취급하고, 모멘텀 기반 무경사 메타 업데이트 (momentum-based gradient-free meta-update) 를 통해 공유 기본 일정을 더 높은 성능을 보이는 구성으로 업데이트하는 자동 학습률 (auto-LR) 컨트롤러를 추가로 제안합니다. 결합된 방법은 추가적인 하이퍼파라미터 스윕이나 훈련 예산 없이 최적화 품질과 일반화를 모두 개선하는 자체 적응형 학습률 일정을 생성합니다.至关重要的是, 이 프레임워크는 학습률을 넘어 일반화됩니다: 드롭아웃 비율 (dropout rate), 주의력 스케일 온도 (attention scale temperature), 또는 가중치 감쇠 계수 (weight-decay coefficient) 와 같이 모델 아키텍처를 변경하지 않는 어떤 스칼라 하이퍼파라미터든 동일한 팬아웃/컨버지 프로토콜을 사용하여 복제본 간에 탐색할 수 있으며, 복제본 간 손실 차이는 검색 방향을 안내하는 제로 오더 하이퍼그리디언트 (zero-order hypergradients) 역할을 합니다. HDET 는 PyTorch 의 OneCycleLR 스케줄러에 대한 드롭인 대체품으로 구현되어 모델 아키텍처, 옵티마이저, 또는 데이터 파이프라인 변경 없이 작동합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0