arXiv논문2026. 06. 23. 13:47

수십억 파라미터 규모의 사전 학습된 Transformer를 위한 선형 모드 연결성(LMC) 및 병합 확장 기술

요약

수십억 파라미터 규모의 Transformer 모델을 효과적으로 병합하기 위한 새로운 LMC 기반 프레임워크를 제안합니다. 기능 보존 가중치 변환과 이중 학습 절차를 통해 모델 간의 보간 장벽을 획기적으로 낮추는 데 성공했습니다.

핵심 포인트

대규모 Transformer 모델을 위한 확장 가능한 LMC 프레임워크 제안
이중 학습 절차를 통해 모델 간 선형 보간 경로 최적화
WikiText 및 ImageNet 벤치마크에서 낮은 손실 장벽 입증
매개변수 대칭성 해결을 통한 모델 병합 성능 개선

선형 모드 연결성 (Linear mode connectivity, LMC)은 독립적으로 학습된 신경망을 이해하고 병합하는 데 유망한 토대를 제공하지만, 기존 방법들은 일반적으로 하나의 모델 엔드포인트(endpoint)에서만 보간 경로 (interpolation path)를 최적화하므로, 대규모 사전 학습된 Transformer (pretrained transformers)에 대한 확장성과 효과가 제한적입니다. 우리는 LMC 기반의 모델 병합을 {\em 수십억 파라미터 규모의 사전 학습된 Transformer (billion-parameter pretrained transformers)}로 확장할 수 있는 새롭고 확장 가능한 프레임워크를 제안합니다. 우리의 방법은 기능적으로 동등한 솔루션들을 정렬하기 위해 적절하게 매개변수화된 기능 보존 가중치 변환 (functionality-preserving weight transformations)을 적용하며, 두 모델이 공유된 선형 보간 경로를 향해 각각의 변환을 공동으로 학습하는 이중 학습 절차 (dual learning procedure)를 도입합니다. 이러한 양방향 최적화는 보간 장벽 (interpolation barriers)을 실질적으로 감소시키고 대규모 아키텍처 전반에서 더욱 신뢰할 수 있는 병합을 가능하게 합니다. 실증적으로, 우리는 우리의 접근 방식이 중간 크기 파라미터를 가진 언어 모델의 WikiText에서 거의 제로에 가까운 손실 장벽 (loss barriers)을 달성함을 보여주며, 이는 우리가 아는 한 이 규모에서 장벽이 거의 없는 선형 연결성을 입증한 첫 번째 사례입니다. 비전 도메인에서는 ViT-L이 보간 경로 전체에서 69% 이상의 ImageNet top-1 정확도를 유지하는 반면, 최신 수십억 파라미터 규모의 LLM들은 매우 작은 손실 장벽만을 나타냅니다. 이러한 결과는 매개변수 대칭성 (parameter symmetries)을 적절히 해결함으로써 대규모 사전 학습된 Transformer를 단순한 선형 경로를 통해 연결하고 병합할 수 있으며, 이를 통해 보간 성능을 실질적으로 개선할 수 있음을 시사합니다. Code: https://github.com/VILA-Lab/Dual-Learned-Matching .

AI 자동 생성 콘텐츠

원문 바로가기

수십억 파라미터 규모의 사전 학습된 Transformer를 위한 선형 모드 연결성(LMC) 및 병합 확장 기술

요약

핵심 포인트

댓글