Review Residuals: Transformer를 위한 업데이트 조건부 잔차 게이팅 (Update-Conditioned Residual

잔차 연결 (Residual connections)은 각 서브레이어 (sublayer)의 제안된 업데이트를 고정된 계수 1로 더합니다. 즉, 네트워크는 업데이트를 적용하기 전에 해당 업데이트가 신뢰할 수 있는지 여부를 전혀 평가하지 않습니다. 독립적 검증이라는 인간 요인 원리 (human-factors principle)에 착안하여, 우리는 현재 상태와 제안된 업데이트 모두에 의해 조건화된(conditioned), 학습 가능한 입력 의존적 게이트 (input-dependent gate)를 통해 각 업데이트의 크기를 조절하는 Review Residuals를 도입합니다: h_l = h_{l-1} + r_l * u_l (단, r_l = sigmoid(W[RMSNorm(h_{l-1}), RMSNorm(u_l)])). 게이트를 업데이트에 조건화하는 성질은 기존의 게이트형 및 스케일링된 잔차 (gated and scaled residuals) 방식과 차별화되는 특징입니다. 우리는 두 가지 발견을 보고합니다. 첫째, 깊이 안정성 (depth-stability) 결과입니다. 볼록한 (Highway 스타일) 형태의 게이트는 기울기 소실 (vanishing gradients) 문제를 다시 발생시켜 약 20개 레이어를 넘어 학습하는 데 실패하는 반면, 가산적이고 항등성을 보존하는 (additive, identity-preserving) 형태는 테스트한 모든 깊이에서 안정적으로 학습됩니다. 둘째, 규모에 따른 창발성 (emergence-with-scale) 결과입니다. 다섯 가지 크기(60M~1B 파라미터, 멀티 시드)에 대해 처음부터 학습시킨 결과, Review Residuals는 작은 규모에서는 이점이 없었으나 590M 규모에서는 파라미터 수가 동일한 Highway 게이트 및 표준 잔차 (standard residual) 모두를 유의미하게 능가하였으며 (p<0.05), 1B 규모에서는 더 큰 우위를 보였습니다. 이러한 이점은 모델 크기가 커짐에 따라 줄어들지 않고 오히려 증가합니다.

Insights

Review Residuals: Transformer를 위한 업데이트 조건부 잔차 게이팅 (Update-Conditioned Residual

요약

핵심 포인트

댓글

월요일 옥수수 가격 4달러 아래로 하락

Jefferies의 등급 상향 이후 FuelCell Energy 주식에 대응하는 방법

【보도자료】 Unity의 인앱 결제 SDK "Unity IAP 5.4" 출시 — D2C 기능으로 게임 개발자의 수익화 강화

월요일 옥수수 가격 4달러 아래로 하락

Jefferies의 등급 상향 이후 FuelCell Energy 주식에 대응하는 방법

【보도자료】 Unity의 인앱 결제 SDK "Unity IAP 5.4" 출시 — D2C 기능으로 게임 개발자의 수익화 강화