Review Residuals: Transformer를 위한 업데이트 조건부 잔차 게이팅 (Update-Conditioned Residual
요약
Transformer의 잔차 연결(Residual connection)을 개선하기 위해 현재 상태와 업데이트 제안을 모두 고려하는 'Review Residuals' 기법을 제안합니다. 이 방식은 모델의 깊이에 따른 학습 안정성을 확보하고, 모델 규모가 커질수록 성능 우위가 뚜렷해지는 창발적 특성을 보입니다.
핵심 포인트
- 입력 의존적 게이트를 통해 업데이트 크기를 조절하는 Review Residuals 도입
- 가산적/항등성 보존 형태의 게이트를 통해 깊은 레이어에서도 안정적 학습 가능
- 모델 규모가 커질수록(590M~1B) 기존 방식 대비 유의미한 성능 향상 확인
잔차 연결 (Residual connections)은 각 서브레이어 (sublayer)의 제안된 업데이트를 고정된 계수 1로 더합니다. 즉, 네트워크는 업데이트를 적용하기 전에 해당 업데이트가 신뢰할 수 있는지 여부를 전혀 평가하지 않습니다. 독립적 검증이라는 인간 요인 원리 (human-factors principle)에 착안하여, 우리는 현재 상태와 제안된 업데이트 모두에 의해 조건화된(conditioned), 학습 가능한 입력 의존적 게이트 (input-dependent gate)를 통해 각 업데이트의 크기를 조절하는 Review Residuals를 도입합니다: h_l = h_{l-1} + r_l * u_l (단, r_l = sigmoid(W[RMSNorm(h_{l-1}), RMSNorm(u_l)])). 게이트를 업데이트에 조건화하는 성질은 기존의 게이트형 및 스케일링된 잔차 (gated and scaled residuals) 방식과 차별화되는 특징입니다. 우리는 두 가지 발견을 보고합니다. 첫째, 깊이 안정성 (depth-stability) 결과입니다. 볼록한 (Highway 스타일) 형태의 게이트는 기울기 소실 (vanishing gradients) 문제를 다시 발생시켜 약 20개 레이어를 넘어 학습하는 데 실패하는 반면, 가산적이고 항등성을 보존하는 (additive, identity-preserving) 형태는 테스트한 모든 깊이에서 안정적으로 학습됩니다. 둘째, 규모에 따른 창발성 (emergence-with-scale) 결과입니다. 다섯 가지 크기(60M~1B 파라미터, 멀티 시드)에 대해 처음부터 학습시킨 결과, Review Residuals는 작은 규모에서는 이점이 없었으나 590M 규모에서는 파라미터 수가 동일한 Highway 게이트 및 표준 잔차 (standard residual) 모두를 유의미하게 능가하였으며 (p<0.05), 1B 규모에서는 더 큰 우위를 보였습니다. 이러한 이점은 모델 크기가 커짐에 따라 줄어들지 않고 오히려 증가합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기