대부분의 Transformer 수정 사항은 1-3B 규모에서 전이되지 않는다: Narang et al. (2021)에 대한 2020-2026

Narang et al. (2021)은 T5-base 규모에서 40개 이상의 Transformer 수정 사항을 평가하였으며, 대부분이 전이(transfer)되지 않는다는 결론을 내렸습니다. 5년이 지난 지금, 전형적인 작업 환경은 1-3B 파라미터 규모로 이동하였고, 사전 학습 퍼플렉시티(pretraining perplexity)를 대신하여 다운스트림 평가(downstream evaluation)가 도입되었으며, 이전과는 상당히 다른 수정 사항 목록이 등장했습니다. 우리는 엄격한 데이터 동일성(iso-data), 연산량 동일성(iso-compute), 레시피 동일성(iso-recipe) 통제 하에 1.2B 및 3B 규모에서 20개의 2021년 이후 Transformer 수정 사항을 테스트함으로써 그들의 질문을 재검토합니다. 이때 멀티 시드 베이스라인 노이즈 플로어(multi-seed baseline noise floor)와 CLIMB-12 다운스트림 평가를 주요 지표로 사용했습니다. 핵심적인 발견은 이 선별된 세트에서 그들의 연구 결과를 재현한다는 점입니다: 즉, 대부분의 수정 사항은 전이되지 않습니다. 20개의 수정 사항 중 오직 두 가지만이 1.2B 규모에서 명확한 본페로니 교정(Bonferroni correction)을 통과하였으며, 그 두 가지 중 하나는 공유된 레시피 하의 3B 규모에서 안정적으로 학습하는 데 추가로 실패했습니다. 또한 우리는 Tay et al. (2023)이 보고한 손실-다운스트림 격차(loss-downstream gap)가 어텐션 출력(attention-output) 수정 사항의 경우 몇 배로 확대된다는 것을 발견했습니다. 두 가지 유의미한 실패 사례는 베이스라인 검증 손실(baseline validation loss)의 2-3% 이내로 수렴함에도 불구하고, CLIMB 점수는 6-16점 하락했습니다. 우리는 노이즈 플로어(noise-floor) 보고, 다운스트림 평가, 그리고 교차 규모 안정성 테스트(cross-scale stability testing)가 이제 1-3B 규모에서의 아키텍처 비교를 위한 필수 전제 조건이라고 결론짓습니다.

Insights

대부분의 Transformer 수정 사항은 1-3B 규모에서 전이되지 않는다: Narang et al. (2021)에 대한 2020-2026

요약

핵심 포인트

댓글

엔비디아 다음 세대 AI 서버는 GPU를 사는 게 아니라 점점 HBM 덩어리를 사는 것에 가까워진다.

프론트엔드를 선택 사항으로 만든 GitHub 저장소

OmniDesk v2.3.1: 이제 휴대폰에서도 Claude 코드를 실제로 구동할 수 있게 되었습니다

로컬 AI의 또 다른 대성공

엔비디아 다음 세대 AI 서버는 GPU를 사는 게 아니라 점점 HBM 덩어리를 사는 것에 가까워진다.

프론트엔드를 선택 사항으로 만든 GitHub 저장소

OmniDesk v2.3.1: 이제 휴대폰에서도 Claude 코드를 실제로 구동할 수 있게 되었습니다

로컬 AI의 또 다른 대성공