arXiv논문2026. 06. 23. 13:34

테이퍼드 언어 모델 (Tapered Language Models)

요약

현대 언어 모델의 레이어별 기여도가 비대칭적이라는 점에 착안하여, 초기 레이어에 더 많은 파라미터를 할당하는 '테이퍼드 언어 모델(TLMs)' 아키텍처를 제안합니다. 실험 결과, MLP 너비를 코사인 스케줄로 조절하는 것만으로도 추가 비용 없이 성능을 개선할 수 있음을 입증했습니다.

핵심 포인트

레이어 깊이에 따른 비균등한 파라미터 할당의 중요성 발견
초기 레이어에 더 많은 용량을 할당할 때 퍼플렉시티 개선
MLP 너비를 테이퍼링하는 TLMs 아키텍처 원칙 제안
추가 연산 비용 없이 다양한 아키텍처에서 성능 향상 확인

Transformer, 순환 (recurrent), 메모리 기반 변형 모델을 포함한 현대의 언어 모델들은 공통된 구조를 공유합니다: 즉, 깊이에 따라 파라미터가 균등하게 할당된 동일한 레이어의 스택입니다. 이는 오리지널 Transformer에서 물려받은 기본 설정이며 이후로도 거의 변하지 않았으나, 점점 더 많은 증거들은 레이어들이 최종 출력에 비균등하게 기여하며, 후기 레이어들은 잔차 스트림 (residual stream)을 변형하기보다는 정제한다는 점을 시사합니다. 우리는 파라미터 용량이 이러한 비대칭성을 반영해야 하는지 질문합니다. 우리의 통제된 실험에 따르면, 고정된 예산 하에서 초기 레이어에 더 많은 용량을 할당하고 후기 레이어에 더 적은 용량을 할당하는 것이 균등 너비 (uniform-width) 베이스라인보다 퍼플렉시티 (perplexity)를 개선하는 반면, 그 반대의 할당은 성능을 저하시킵니다. 이 결과를 바탕으로, 우리는 총 예산이 고정된 상태에서 파라미터를 보유한 구성 요소가 깊이에 따라 단조롭게 테이퍼링 (tapered)되는 아키텍처 원칙인 테이퍼드 언어 모델 (Tapered Language Models, TLMs)을 소개합니다. MLP는 이러한 구현을 위한 자연스러운 지점입니다: MLP는 모든 현대적 LM 제품군 전반에 걸쳐 파라미터 수를 지배하며, 너비를 단일하고 깔끔한 변동 축으로 노출하기 때문입니다. 세 가지 모델 규모와 네 가지 아키텍처 (Transformer, Gated Attention, Hope-attention, Titans)에 걸쳐, 부드러운 코사인 스케줄 (cosine schedule)을 통해 MLP 너비를 테이퍼링하는 것은 추가적인 파라미터나 연산 비용 없이도 균등 베이스라인에 비해 퍼플렉시티와 다운스트림 벤치마크 성능을 일관되게 향상시킵니다. 이러한 발견은 깊이 인지적 용량 할당 (depth-aware capacity allocation)이 언어 모델 설계의 단순하고 아키텍처에 구애받지 않는 축이며, 눈앞에 숨겨져 있던 공짜 레버임을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

테이퍼드 언어 모델 (Tapered Language Models)

요약

핵심 포인트

댓글