Transformer 아키텍처의 결정화 (2017-2025)

2017년에서 2025년 사이, LLM을 위한 Transformer 아키텍처는 급격한 탐색 과정을 거친 후 놀라운 수렴(Convergence)을 보였습니다. 이 글은 53개 모델에 걸친 결정 사항들을 추적하며, 2023~2025년의 사실상 표준(de facto) 스택인 pre-norm (RMSNorm), RoPE, SwiGLU MLPs, KV-sharing (MQA/GQA), 그리고 bias-free 레이어를 식별합니다. 우리는 모델 내부적 요인(최적화 안정성, FLOP당 품질)과 실질적인 제약 사항(커널 가용성, KV-cache 경제성)을 모두 논의합니다. 다양성은 주로 MoE 라우팅과 긴 문맥(long-context) 어텐션에서 지속되고 있습니다. 동반된 데이터셋에는 출판 날짜와 아키텍처 사양이 기록되어 있습니다.

신호로서의 수렴

2017년 6월, (Vaswani et al., 2017)은 post-layer normalization, sinusoidal position encodings, ReLU activations, 그리고 4x MLP expansion이라는 특정 아키텍처 선택 세트와 함께 Transformer를 소개했습니다. 각 선택은 합리적이었으나 명백하게 최적은 아니었습니다. 이후 8년 동안 대안들에 대한 광범위한 실험이 이루어졌습니다.

2024년에 이르러, 많은 영향력 있는 오픈 웨이트(open-weight) decoder-only 모델 제품군들은 유사한 번들로 수렴했습니다: pre-norm (종종 RMSNorm 사용), RoPE 계열의 position encodings, GLU 계열의 MLPs (일반적으로 파라미터 너비가 일치하는 SwiGLU), 그리고 KV-sharing 어텐션 변형(MQA/GQA)입니다. 또한 여러 모델이 대부분의 bias 항을 제거했습니다 (때때로 QKV 전용 bias만 유지함). 이것이 문자 그대로 보편적인 것은 아닙니다. 주목할 만한 하이브리드 모델과 역트렌드(예: ALiBi/relative-bias 계보, RoPE+NoPE 혼합, 비표준 norm 스택 등)가 존재하기 때문입니다. 하지만 질량 중심(center of mass)은 명확합니다. 오리지널 Transformer의 선택들은 통째로 교체되었습니다.

많은 독립적인 그룹이 유사한 설계 선택으로 수렴할 때, 이는 강력하게 공유된 솔루션의 분지(basin of solutions)가 존재한다는 증거입니다. 하지만 수렴은 공통된 제약 사항(하드웨어/소프트웨어 스택, 커널 가용성, 추론 경제성)과 경로 의존성(영향력 있는 공개 체크포인트 및 참조 구현체)을 반영할 수도 있습니다. 여기서의 목표는 무엇이 견고해 보이는지(robust)와 무엇이 우발적일 수 있는지(contingent)를 구분하는 것입니다.

이 기사는 세 가지 관점을 통해 아키텍처의 진화를 살펴봅니다:

역사적 발전 (Historical progression): 2017년의 Transformer에서 2025년의 합의(consensus)에 이르기까지 어떻게 도달했는가? 각 혁신은 어떤 문제를 해결했는가?

기술적 토대 (Technical foundations): 어떤 수학적 특성이 RoPE를 학습된 절대 위치(learned absolute positions)보다 더 매력적으로 만드는가? 왜 SwiGLU는 유효 파라미터(effective parameters)가 더 적음에도 불구하고 GeLU보다 성능이 뛰어난가? 왜 QK-normalization은 학습을 안정화시키는가?

남겨진 개척지 (Remaining frontiers): 어디에서 수렴(convergence)이 발생하지 않았는가? MoE 구성, 어텐션 패턴(attention patterns), 그리고 안정성 메커니즘(stability mechanisms)에서 나타나는 지속적인 아키텍처의 다양성은 해결되지 않은 문제들에 대해 무엇을 말해주는가?

범위 참고: 여기서 “수렴(convergence)”은 학습 레시피(training recipe), 데이터, 사후 학습(post-training), 또는 시스템 수준의 추론 트릭보다는 주로 밀집형(dense), 디코더 전용(decoder-only) LLM 블록(정규화/위치 인코딩/MLP/어텐션)에 관한 것입니다. 데이터셋은 “널리 논의되는 모델들”이며, 이는 공개 기술 보고서 및/또는 오픈 웨이트(open weights)를 가진 모델 쪽으로 기울어져 있습니다.

이 분석은 2017년부터 2025년까지의 53개 Transformer LLM 데이터셋을 바탕으로 하며, 아키텍처 사양은 1차 자료와 교차 참조되었습니다.

Transformer 아키텍처의 네 가지 시대

Transformer LLM의 진화는 자연스럽게 네 가지 시대로 나뉘며, 각 시대는 뚜렷한 아키텍처 우선순위와 혁신을 특징으로 합니다.

시대 I: 토대 (2017-2019)

오리지널 Transformer는 오늘날까지 지속되는 근본적인 구조를 확립했습니다: 잔차 연결(residual streams)로 연결된 멀티 헤드 셀프 어텐션(multi-head self-attention)과 위치별 피드포워드(position-wise feed-forward) 레이어의 교차 배치입니다. 그러나 구체적인 구현 선택은 대체로 이전 연구에서 상속되었거나 단순성을 위해 선택되었습니다.

정규화(Normalization) 배치는 잔차 네트워크(residual networks)의 관례를 따랐습니다: 잔차 합산 후에 정규화를 적용하는 방식(post-norm)입니다. 서브레이어 함수 (f) (어텐션 또는 FFN)에 대하여, 계산식은 다음과 같았습니다:

[x_{l+1} = \text{LayerNorm}(x_l + f(x_l))]

위치 인코딩(Position encoding)은 고정된 사인파 함수(sinusoidal functions)를 사용하였으며, 차원 (i)에서의 절대 위치 (p)를 다음과 같이 인코딩했습니다:

(PE_{(p, 2i)} = \sin(p / 10000^{2i/d})) (PE_{(p, 2i+1)} = \cos(p / 10000^{2i/d}))

이러한 선택은 우아했습니다. 학습 가능한 파라미터 (learned parameters)가 필요하지 않으며, 이론적으로는 사인파 (sinusoids)의 선형적 특성을 통해 길이 일반화 (length generalization)를 가능하게 했습니다. 하지만 후속 연구들은 학습된 절대 위치 (learned absolute positions)가 실제로는 더 나은 성능을 보인다는 것을 보여주었습니다.

피드포워드 네트워크 (Feed-forward networks)는 ReLU 활성화 함수 (activation)와 4배 확장 (4x expansion)을 사용하는 표준 MLP 구조를 사용했습니다:

[\text{FFN}(x) = \max(0, xW_1 + b_1)W_2 + b_2]여기서 (W_1 \in \mathbb{R}^{d \times 4d})이고 (W_2 \in \mathbb{R}^{4d \times d})입니다.

GPT-1 (2018)은 학습 가능한 절대 위치와 GeLU 활성화 함수를 사용하는 디코더 전용 (decoder-only) 아키텍처로 전환했습니다. GPT-2 (2019)는 **사전 정규화 (pre-normalization)**로의 결정적인 전환을 도입했습니다:

이 변화는 깊은 층에서의 최적화 안정성 (optimization stability) 향상과 널리 연관되어 있습니다. 한 가지 직관은 그래디언트 흐름 (gradient flow)입니다. 사후 정규화 (post-norm)에서는 그래디언트가 주요 잔차 경로 (residual pathway)를 통해 정규화 과정을 반복해서 통과하지만, 사전 정규화 (pre-norm)에서는 잔차 스트림 (residual stream)이 더 깨끗한 항등 경로 (identity path)를 제공하는 동시에 정규화는 서브레이어 (sublayer)의 기여도만을 형성합니다.

Era II: Scale-Up (2020-2022)

GPT-3 모멘트는 스케일링 (scaling, 단순히 더 많은 데이터로 더 큰 모델을 학습시키는 것)이 질적인 능력 향상을 가져온다는 것을 입증했습니다. 이 시대는 아키텍처 개선을 통해 효율적인 스케일링을 가능하게 하는 데 집중했습니다.

(Zhang & Sennrich, 2019)에 의해 도입된 RMSNorm (Root Mean Square Layer Normalization)은 Gopher와 Chinchilla에서 채택되면서 이 시기에 탄력을 받았습니다. 표준 레이어 정규화 (LayerNorm)는 다음과 같이 계산합니다:

[\text{LayerNorm}(x) = \frac{x - \mu}{\sigma} \odot \gamma + \beta]여기서 (\mu)와 (\sigma)는 특징 (features) 전체에 대한 평균 (mean)과 표준 편차 (standard deviation)입니다. RMSNorm은 평균 중심화 (mean-centering)를 제거함으로써 이를 단순화합니다:

[\text{RMSNorm}(x) = \frac{x}{\text{RMS}(x)} \odot \gamma, \quad \text{RMS}(x) = \sqrt{\frac{1}{d}\sum_{i=1}^{d} x_i^2}]연산 비용 절감 효과는 크지 않지만 (구현 방식에 따라 다르나 흔히 10-15% 정도로 보고됨), 경험적으로 RMSNorm은 정규화 연산을 단순화하면서도 많은 Transformer 설정에서 LayerNorm과 유사한 성능을 보여줍니다. 평균 중심화 (mean-centering) 자체가 "틀린" 것은 아니지만, 현대의 Pre-norm Transformer에서는 양호한 학습 역학 (training dynamics)을 위해 불필요한 경우가 많으며, 이를 제거함으로써 효율성을 약간 향상시킬 수 있습니다.

병렬 어텐션 (Parallel attention) 및 FFN은 GPT-J, GPT-NeoX, 그리고 이후의 PaLM에 의해 도입되었습니다. 순차적 계산 대신:

[x'{l} = x_l + \text{Attn}(\text{Norm}(x_l)), \qquad x{l+1} = x'{l} + \text{FFN}(\text{Norm}(x'{l}))]
병렬 공식은 동일한 입력으로부터 두 서브레이어 (sublayers)를 모두 계산하고 합산합니다:

[x_{l+1} = x_l + \text{Attn}(\text{Norm}(x_l)) + \text{FFN}(\text{Norm}(x_l))]
이는 병렬화 가능한 작업량을 늘림으로써 하드웨어 활용도 (hardware utilization)를 개선할 수 있습니다. 보고된 속도 향상은 구현 방식, 모델 형태, 커널 (kernel) 지원 여부에 따라 다르지만, 품질 저하를 최소화하면서 흔히 ~10-20% 수준입니다.

회전 위치 임베딩 (Rotary Position Embeddings, RoPE)은 (Su et al., 2024)에 의해 도입되었으며 GPT-J, GPT-NeoX, PaLM에서 빠르게 채택되었습니다. 상세한 분석은 섹션 3.1로 미루겠습니다만, 핵심 혁신은 입력에 절대 위치 임베딩 (absolute position embeddings)을 더하는 대신, 쿼리 (query) 및 키 (key) 벡터에 적용되는 회전 행렬 (rotation matrices)을 통해 상대적 위치 정보를 인코딩하는 것입니다.

SwiGLU 활성화 함수는 (Shazeer, 2020)에 의해 도입되었으며 이후 PaLM에서 대규모로 채택되었습니다. 이 기술은 게이트 선형 유닛 (Gated Linear Unit, GLU) 제품군을 기반으로 합니다. 표준 FFN:

[\text{FFN}(x) = \text{GeLU}(xW_1)W_2]
은 다음과 같이 변합니다:

[\text{SwiGLU}(x) = (\text{SiLU}(xW_1) \odot xW_3)W_2]이며, 여기서 SiLU (Swish)는 (x \cdot \sigma(x))이고 (\odot)는 요소별 곱셈 (element-wise multiplication)을 의미합니다. 게이팅 메커니즘 (gating mechanism, (xW_3))은 활성화된 표현 (activated representation)을 조절하여 표현력 (expressivity)을 향상시킵니다. 하지만 세 번째 가중치 행렬 (weight matrix)로 인해 파라미터가 증가하므로, 파라미터 수를 유지하기 위해 은닉 차원 (hidden dimension)을 (4d)에서 (\frac{8d}{3})로 줄입니다.

Era III: 효율성과 오픈 소스 (2023-2024)

LLaMA (2023년 2월)는 현대적 아키텍처를 결정화했습니다. 각 구성 요소는 이전에 존재했지만, LLaMA의 조합(그리고 가중치를 공개하기로 한 Meta의 결정)은 이후 등장한 거의 모든 오픈 모델이 채택한 재현 가능한 베이스라인 (baseline)을 구축했습니다.

LLaMA의 레시피는 다음과 같습니다:

RMSNorm을 사용한 사전 정규화 (Pre-normalization)
회전 위치 임베딩 (Rotary position embeddings, RoPE)
약 8/3 확장 비율의 SwiGLU 활성화 함수
어디에도 편향 항 (bias terms)을 사용하지 않음
그룹화된 쿼리 주의 집중 (Grouped-query attention, LLaMA 2 이후 도입)

이 레시피가 성공한 이유는 훈련 안정성 (training stability), 추론 효율성 (inference efficiency), 구현 단순성 (implementation simplicity), 그리고 모델 품질 (model quality)이라는 여러 목표를 동시에 최적화했기 때문입니다. 예를 들어, 편향 항의 부재는 측정 가능한 품질 저하 없이 훈련 역학 (training dynamics)을 약간 개선하고 구현을 단순화합니다.

그룹화된 쿼리 주의 집중 (Grouped-Query Attention, GQA)은 추론 병목 현상 (inference bottleneck)을 해결했습니다. 표준 멀티 헤드 주의 집중 (multi-head attention, MHA)에서는 각 헤드가 별도의 키 (key)와 값 (value) 투영 (projection)을 유지합니다. (h)개의 헤드를 가진 모델의 경우, 이는 자기회귀 생성 (autoregressive generation) 동안 (h)개의 별도 KV 쌍을 캐싱해야 함을 의미합니다. GQA는 여러 쿼리 헤드를 그룹화하여 단일 키-값 헤드를 공유합니다:

[\text{GQA}: \quad Q \in \mathbb{R}^{h_q \times d_k}, \quad K, V \in \mathbb{R}^{h_{kv} \times d_k}]
여기서 (h_q > h_{kv}) (일반적으로 (h_q / h_{kv} = 4) 또는 (8))입니다. 이는 품질 저하를 최소화하면서 그룹화 계수만큼 KV 캐시 (KV-cache) 메모리를 줄여주며, 추론 시 더 긴 컨텍스트 (context)와 더 큰 배치 크기 (batch size)를 가능하게 합니다.

이 시기에는 어휘 사전 확장 (Vocabulary expansion)이 가속화되었습니다. LLaMA는 32K 토큰을 사용했으며, LLaMA 2도 이를 유지했습니다. LLaMA 3는 128K로 확장되었고, Gemma는 256K를 사용합니다. 더 큰 어휘 사전은 임베딩 행렬 (embedding matrices)이 커지는 비용을 수반하지만, 토큰화 효율성 (tokenization efficiency, 특히 비영어권 언어와 코드에서 단어당 토큰 수 감소)을 향상시킵니다. 이러한 추세는 개선된 토크나이저 알고리즘 (BPE 변형, BBPE)과 Transformer 레이어에 비해 임베딩 파라미터 (embedding parameters)가 상대적으로 저렴하다는 인식을 모두 반영합니다.

모델 규모가 커짐에 따라 안정화 메커니즘 (Stability mechanisms)이 등장했습니다:

Logit soft-capping (Gemma 2): 수치적 오버플로 (numerical overflow)를 방지하기 위해 softmax 이전에 어텐션 로짓 (attention logits)의 범위를 제한합니다: 캡 값(cap value) $c$에 대해 $\text{logits} \leftarrow c \cdot \tanh(\text{logits}/c)$

QK-normalization (Gemma 3, OLMo 2, Qwen 3): 어텐션 점수 (attention scores)를 계산하기 전에 쿼리 (query) 및 키 (key) 벡터에 정규화 (normalization)를 적용합니다. 수학적 동기는 섹션 3.4에서 분석합니다.

Embedding LayerNorm (BLOOM): 첫 번째 Transformer 레이어 이전에 임베딩을 정규화하여 초기화 관련 불안정성 (initialization-related instabilities) 문제를 해결합니다.

시대 IV: MoE의 지배 (2024-2025)

밀집 스케일링 (Dense scaling), 즉 단순히 모델 파라미터를 늘리는 방식은 수확 체감 (diminishing returns)의 문제에 직면합니다. 훈련 연산량 (training compute)은 파라미터와 선형적으로 증가하지만, 품질 향상은 하위 선형적 (sublinear)으로 변합니다. 전문가 혼합 (Mixture-of-Experts, MoE)은 다른 스케일링 축을 제공합니다: 활성 (per-token) 파라미터는 일정하게 유지하면서 전체 파라미터를 늘리는 방식입니다.

Mixtral 8×7B (2024년 1월)는 오픈 소스 MoE 모델이 훨씬 더 많은 활성 파라미터를 가진 밀집 모델 (dense models)과 대등할 수 있음을 입증했습니다. 이 아키텍처는 각 FFN을 라우팅된 혼합 (routed mixture)으로 대체합니다:

$$\text{MoE}(x) = \sum_{i=1}^{k} g_i(x) \cdot E_i(x)$$
여기서 $E_i$는 전문가 네트워크 (expert networks, 일반적으로 표준 FFN)이며, $g_i(x)$는 학습된 라우터 (learned router)로부터의 라우팅 가중치 (routing weights)이고, $k$는 토큰당 활성 전문가 수 (Mixtral의 경우 일반적으로 1-2개, 이후 모델의 경우 최대 8개)입니다.

2024-2025년에 걸친 전문가 스케일링 (expert scaling) 궤적은 극적입니다:

모델	날짜	총 파라미터 수 (Total Params)	활성 파라미터 수 (Active Params)	전문가 수 (Experts)	활성 전문가 수 (Active)
Mixtral 8×7B	2024년 1월	46.7B	12.9B	8	2
...

보조 손실 없는 부하 분산 (Auxiliary-loss-free load balancing, DeepSeek V3)은 지속적인 MoE (Mixture-of-Experts) 학습 문제를 해결했습니다. 전통적인 방식은 전문가 활용의 균형을 장려하기 위해 보조 손실 (auxiliary loss)을 추가합니다:

여기서 (f_i)는 전문가 (i)로 라우팅되는 토큰의 비율이며, (P_i)는 전문가 (i)에 대한 평균 라우팅 확률입니다. 이 손실은 균형을 장려하지만 주요 학습 목표를 왜곡합니다.

DeepSeek의 혁신은 선택 (부하 분산을 유지하기 위해)에는 사용되지만, 출력을 형성하는 데 사용되는 *혼합 가중치 (mixture weights)*에서는 제외되는 편향 항 (bias term) (b_i)를 도입합니다. 구체적으로, 전문가는 (s_i = r_i(x) + b_i)에 의해 선택되지만, 출력 가중치는 선택된 집합에 대해 편향되지 않은 라우터 점수 (r_i(x))로부터 계산됩니다 (아래 3.3절에서 공식화됨).

공유 전문가 (Shared experts; DeepSeek, Trinity, Llama 4)는 하나 이상의 전문가를 항상 활성화된 상태로 지정하여, 모든 토큰이 접근할 수 있는 안정적인 베이스라인을 제공합니다. 이는 학습 안정성을 향상시키고 공통 지식이 특화된 전문가들 사이에서 파편화되지 않도록 보장합니다.

Insights