arXiv논문2026. 04. 29. 15:39

효율적인 크로스-스케일 하이퍼파라미터 전이를 통한 확률적 트랜스포머 확장

요약

본 논문은 작은 모델과 데이터셋에서 좋은 성능을 보여왔지만 하이퍼파라미터 확장에 취약했던 확률적 트랜스포머(PT)의 확장 문제를 해결하는 방법을 제시합니다. 연구진은 Maximal Update Parametrization (muP) 기법을 사용하여 PT 파라미터를 재확장하고, 이를 통해 작은 모델에서 최적화된 하이퍼파라미터를 추가 튜닝 없이 대규모 모델로 전이할 수 있게 했습니다. 그 결과, 최대 4억 개의 파라미터까지 성공적으로 확장되었으며, 동일한 파라미터 예산 하에서 표준 트랜스포머보다 우수한 성능을 입증했습니다.

핵심 포인트

확률적 트랜스포머(PT)는 작은 규모에서 효과적이지만, 기존에는 대규모 모델로의 확장 및 하이퍼파라미터 전이가 어려웠습니다.
연구팀은 Maximal Update Parametrization (muP)을 활용하여 PT 파라미터를 재확장하는 새로운 접근법을 개발했습니다.
이 방법을 통해 작은 규모에서 얻은 최적화된 하이퍼파라미터를 추가 튜닝 없이 대규모 모델(최대 4억 개 파라미터)로 성공적으로 전이할 수 있었습니다.
실험 결과, PT는 동일한 파라미터 예산 조건에서 표준 트랜스포머보다 Masked Language Modeling (MLM) 작업에서 일관되게 높은 성능을 보였습니다.

맥락적 단어 표현을 위한 화이트박스 확률 모델인 확률적 트랜스포머 (Probabilistic Transformer, PT) 는 작은 모델과 중소규모 데이터셋에서 표준 트랜스포머와 계산 구조 및 다운스트림 작업 성능 측면에서 상당한 유사성을 보여왔습니다. 그러나 PT 는 표준 트랜스포머보다 하이퍼파라미터 선택에 덜 견고하여 효율적인 확장이 더 어렵습니다. 이 연구에서는 Maximal Update Parametrization (muP) 을 따르며 PT 의 파라미터를 재확장하고, 이를 통해 작은 모델에서 최적화된 하이퍼파라미터를 추가 튜닝 없이 더 큰 모델로 전이시킬 수 있도록 합니다. 이 접근법을 통해 우리는 PT 를 최대 04 억 개의 파라미터를 가진 모델까지 성공적으로 확장했습니다. 실험 결과, 동일한 파라미터 예산 하에서 PT 가 Masked Language Modeling (MLM) 작업에서 표준 트랜스포머보다 일관되게 우수한 성능을 보였습니다. 우리는 이 연구가 미래에 확률적 모델의 실질적인 배포를 훨씬 더 큰 규모로 기여할 것으로 기대합니다.

AI 자동 생성 콘텐츠

원문 바로가기

효율적인 크로스-스케일 하이퍼파라미터 전이를 통한 확률적 트랜스포머 확장

요약

핵심 포인트

댓글