arXiv논문2026. 06. 17. 12:18

가변 폭 트랜스포머 (Variable-Width Transformers)

요약

모든 레이어에 동일한 폭을 적용하는 기존 트랜스포머와 달리, 레이어별로 폭을 다르게 할당하는 '> <former' 아키텍처를 제안합니다. 초기와 후기 레이어는 넓게, 중간 레이어는 좁게 구성하여 성능을 높이고 계산 효율성을 개선했습니다.

핵심 포인트

비균일한 용량 할당을 통해 언어 모델링 성능 향상
동일 파라미터 대비 균일 모델보다 낮은 손실값 달성
FLOPs 22% 감소 및 KV 캐시 메모리 15% 절감
잔차 스트림에서 질적으로 다른 표현 생성 확인

모델 크기, 특히 깊이(depth)와 폭(width)을 확장하는 것은 트랜스포머(transformer) 기반 언어 모델의 상당한 발전을 이끌어왔습니다. 그러나 대부분의 아키텍처는 모든 레이어에 걸쳐 일정한 폭을 유지하며, 서로 다른 레이어가 잠재적으로 구별되는 계산적 역할을 수행할 수 있음에도 불구하고 고정된 파라미터(parameter) 및 계산 예산을 균등하게 할당합니다. 본 연구에서는 $\times$ 모양의 > <former 아키텍처를 제안함으로써 네트워크 깊이에 따른 비균일한 용량 할당(nonuniform capacity allocation)을 경험적으로 조사합니다. 이 설계는 파라미터가 필요 없는 잔차 크기 조정(residual resizing) 메커니즘을 활용하여 초기 및 후기 레이어는 더 넓게 유지하고 중간 레이어는 좁게 만듭니다. 200M에서 2B 파라미터(dense) 및 3B 파라미터(MoE)에 이르는 디코더 전용(decoder-only) 언어 모델 전반에 걸쳐, 우리의 > <former는 언어 모델링 손실(language modeling loss) 측면에서 파라미터 수가 동일한 균일(uniform) 베이스라인 모델들을 지속적으로 능가합니다. 평균 레이어 폭을 줄임으로써, 이 아키텍처는 또한 더 적은 전체 FLOPs(손실 매칭 스케일링 곡선 하에서 22% 감소)와 더 작은 KV 캐시(KV cache) 메모리 및 I/O 비용(15% 감소)을 요구합니다. 분석을 통해, 우리는 이러한 병목(bottleneck) 구조가 잔차 스트림(residual streams)에서 질적으로 다른 표현(representations)을 생성한다는 것을 보여줍니다. 종합적으로, 우리의 결과는 비균일한 폭 할당이 언어 모델의 더욱 자원 최적화된 스케일링(scaling)을 가져올 수 있음을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

가변 폭 트랜스포머 (Variable-Width Transformers)

요약

핵심 포인트

댓글