본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 21. 10:58

대부분의 Transformer 수정 사항은 1-3B 규모에서 전이되지 않는다: Narang et al. (2021)에 대한 2020-2026

요약

Narang et al. (2021)의 연구를 바탕으로 1-3B 규모의 모델에서 Transformer 아키텍처 수정 사항의 전이 가능성을 재검토했습니다. 실험 결과, 20개의 수정 사항 중 대부분이 다운스트림 성능으로 전이되지 않음을 확인했으며, 아키텍처 비교 시 노이즈 플로어 보고와 다운스트림 평가가 필수적임을 강조합니다.

핵심 포인트

  • 1-3B 규모의 모델에서도 대부분의 Transformer 아키텍처 수정 사항은 다운스트림 성능 향상으로 이어지지 않음
  • 사전 학습 퍼플렉시티(perplexity)와 실제 다운스트림 성능 사이의 격차가 어텐션 출력 수정 시 더욱 확대됨
  • 아키텍처 비교 시 데이터, 연산량, 레시피의 엄격한 통제와 교차 규모 안정성 테스트가 필요함
  • 멀티 시드 베이스라인 노이즈 플로어 및 CLIMB-12와 같은 다운스트림 평가 지표 도입의 중요성

Narang et al. (2021)은 T5-base 규모에서 40개 이상의 Transformer 수정 사항을 평가하였으며, 대부분이 전이(transfer)되지 않는다는 결론을 내렸습니다. 5년이 지난 지금, 전형적인 작업 환경은 1-3B 파라미터 규모로 이동하였고, 사전 학습 퍼플렉시티(pretraining perplexity)를 대신하여 다운스트림 평가(downstream evaluation)가 도입되었으며, 이전과는 상당히 다른 수정 사항 목록이 등장했습니다. 우리는 엄격한 데이터 동일성(iso-data), 연산량 동일성(iso-compute), 레시피 동일성(iso-recipe) 통제 하에 1.2B 및 3B 규모에서 20개의 2021년 이후 Transformer 수정 사항을 테스트함으로써 그들의 질문을 재검토합니다. 이때 멀티 시드 베이스라인 노이즈 플로어(multi-seed baseline noise floor)와 CLIMB-12 다운스트림 평가를 주요 지표로 사용했습니다. 핵심적인 발견은 이 선별된 세트에서 그들의 연구 결과를 재현한다는 점입니다: 즉, 대부분의 수정 사항은 전이되지 않습니다. 20개의 수정 사항 중 오직 두 가지만이 1.2B 규모에서 명확한 본페로니 교정(Bonferroni correction)을 통과하였으며, 그 두 가지 중 하나는 공유된 레시피 하의 3B 규모에서 안정적으로 학습하는 데 추가로 실패했습니다. 또한 우리는 Tay et al. (2023)이 보고한 손실-다운스트림 격차(loss-downstream gap)가 어텐션 출력(attention-output) 수정 사항의 경우 몇 배로 확대된다는 것을 발견했습니다. 두 가지 유의미한 실패 사례는 베이스라인 검증 손실(baseline validation loss)의 2-3% 이내로 수렴함에도 불구하고, CLIMB 점수는 6-16점 하락했습니다. 우리는 노이즈 플로어(noise-floor) 보고, 다운스트림 평가, 그리고 교차 규모 안정성 테스트(cross-scale stability testing)가 이제 1-3B 규모에서의 아키텍처 비교를 위한 필수 전제 조건이라고 결론짓습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0