arXiv논문2026. 04. 28. 14:36

대규모 모델에 대한 자동 학습률 탐색을 통한 확장 가능한 하이퍼파라미터 발산 앙상블 학습

요약

본 논문은 대규모 신경망 학습 시 GPU 복제본을 활용하여 효율적으로 하이퍼파라미터를 탐색하는 '하이퍼파라미터 발산 앙상블 학습(HDET)' 방법을 제안합니다. HDET는 팬아웃 단계에서 각 복제본이 독립적으로 다양한 하이퍼파라미터를 탐색하고, 컨버지 단계에서 파라미터를 평균화하여 결합합니다. 여기에 모멘텀 기반의 자동 학습률 컨트롤러를 추가함으로써, 별도의 스윕 없이도 최적화 품질과 일반화를 동시에 개선하는 적응형 학습률 일정을 생성할 수 있습니다.

핵심 포인트

HDET는 GPU 복제본을 활용하여 하이퍼파라미터 탐색 공간을 효율적으로 확장하며, 통신 오버헤드를 최소화합니다.
팬아웃(Fan-out)과 컨버지(Converge)의 교대 단계 구조를 통해 독립적인 탐색과 파라미터 평균화를 수행합니다.
모멘텀 기반 무경사 메타 업데이트를 통해 성능이 좋은 하이퍼파라미터 조합으로 공유 기본 일정을 자동으로 조정합니다.
학습률뿐만 아니라 드롭아웃 비율, 가중치 감쇠 계수 등 모델 아키텍처에 관계없이 모든 스칼라 하이퍼파라미터에 적용 가능합니다.

데이터 병렬 확률적 경사 하강법 (data-parallel stochastic gradient descent) 을 사용하여 대규모 신경망을 학습시키는 과정에서는 N 개의 GPU 복제본 (replicas) 을 할당하여 효과적으로 동일한 업데이트를 계산합니다. 이 관행은 학습률 구성의 풍부한 공간을 학습 과정에서 전혀 탐색하지 않게 만듭니다. 우리는 이러한 복제본을 거의 통신 오버헤드 없이 동시 학습률 탐색에 재사용하는 하이퍼파라미터 발산 앙상블 학습 (Hyperparameter-Divergent Ensemble Training, HDET) 방법을 제안합니다. HDET 는 교대 단계로 작동하며, 구조적이고 대칭적인 분포의 학습률 하에서 복제본이 독립적으로 학습하는 팬아웃 (fan-out) 단계와 모든 복제본에 걸쳐 매 T 단마다 AllReduce 를 통해 파라미터를 평균화하는 컨버지 (converge) 단계로 구성됩니다. 이 앙상블 기반 위에 구축하여 우리는 복제본 간의 상대적 훈련 손실을 성능 신호로 취급하고, 모멘텀 기반 무경사 메타 업데이트 (momentum-based gradient-free meta-update) 를 통해 공유 기본 일정을 더 높은 성능을 보이는 구성으로 업데이트하는 자동 학습률 (auto-LR) 컨트롤러를 추가로 제안합니다. 결합된 방법은 추가적인 하이퍼파라미터 스윕이나 훈련 예산 없이 최적화 품질과 일반화를 모두 개선하는 자체 적응형 학습률 일정을 생성합니다.至关重要的是, 이 프레임워크는 학습률을 넘어 일반화됩니다: 드롭아웃 비율 (dropout rate), 주의력 스케일 온도 (attention scale temperature), 또는 가중치 감쇠 계수 (weight-decay coefficient) 와 같이 모델 아키텍처를 변경하지 않는 어떤 스칼라 하이퍼파라미터든 동일한 팬아웃/컨버지 프로토콜을 사용하여 복제본 간에 탐색할 수 있으며, 복제본 간 손실 차이는 검색 방향을 안내하는 제로 오더 하이퍼그리디언트 (zero-order hypergradients) 역할을 합니다. HDET 는 PyTorch 의 OneCycleLR 스케줄러에 대한 드롭인 대체품으로 구현되어 모델 아키텍처, 옵티마이저, 또는 데이터 파이프라인 변경 없이 작동합니다.

AI 자동 생성 콘텐츠

원문 바로가기

대규모 모델에 대한 자동 학습률 탐색을 통한 확장 가능한 하이퍼파라미터 발산 앙상블 학습

요약

핵심 포인트

댓글