본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 26. 12:49

1억 미만 파라미터 양자화 인식 학습(QAT)에서의 스케줄 x 비트 너비 경계 매핑

요약

1억 미만 파라미터 규모의 디코더 언어 모델을 대상으로 양자화 인식 학습(QAT) 시 비트 너비에 따른 최적의 학습률 스케줄 변화를 연구했습니다. 실험 결과, INT8/INT6 환경에서는 비트 너비와 상관없이 FP16의 스케줄을 그대로 사용할 수 있으나, INT4의 경우 50M 파라미터 기준으로 스케줄링 양상이 달라짐을 확인했습니다.

핵심 포인트

  • INT8/INT6 QAT는 FP16에서 튜닝된 LR 스케줄을 그대로 적용 가능
  • 50M 이상의 INT4 모델은 wd33(33% 웜다운) 스케줄이 결정적으로 최적
  • 50M 미만 모델은 스케줄 선택이 노이즈 범위 내에 있어 유의미한 차이 없음
  • INT6 페널티는 로그 선형 스케일링 법칙을 따름

우리는 1억(100M) 미만 디코더 언어 모델(decoder language models)을 위한 초기화 단계부터의 양자화 인식 학습 (Quantisation-Aware Training, QAT) 과정에서 최적의 학습률 (Learning-rate, LR) 스케줄이 비트 너비 (bit-width)에 따라 달라지는지 테스트합니다. 비트 너비 x 웜다운 비율 (warmdown fraction) x LR 크기 (magnitude) x 모델 크기 x 시드 (seed) (FP16/INT8/INT6, 15M-100M, 5개 시드)에 대해 720회 실행된 요인 그리드 (factorial grid) 실험 (Phase 2) 결과, 모든 (비트 너비, 크기) 셀에서 최적의 웜다운은 33%임을 발견했습니다. 'INT6 QAT는 더 높은 정밀도의 학습과는 다른 스케줄이 필요하다'는 주요 가설은 FP16/INT8/INT6 환경에서 기각되었습니다. 625회 실행된 후속 연구 (Phase 5)는 다섯 가지 축을 따라 귀무 가설 (null hypothesis)을 조사합니다: 옵티마이저 (optimiser, AdamW), 스케줄 형태 (schedule shape, cosine), 학습 길이 (training length, 최대 9배 더 많은 반복 횟수), 확장된 크기 스윕 (extended size sweep, 5M-350M), 그리고 3M에서 100M까지의 INT4 스윕입니다. 귀무 가설은 세 가지 설정 변경 하에서도 견고하게 유지되었습니다. INT6 페널티 (penalty)는 로그 선형 스케일링 법칙 (log-linear scaling law)을 따르며, Phase 2에서의 적합도는 제외된 다섯 가지 Phase 5 크기 (5M, 8M, 175M, 250M, 350M)를 95% 예측 구간 내에서 예측합니다 (5/5). INT4의 경우 고정밀도 모델보다 양상이 더 뚜렷합니다: 50M 및 100M에서는 wd33이 결정적으로 최적입니다 (paired z ~ 12-15, 10/10 시드). 50M 미만에서는 테스트된 3M에서 30M 사이의 6개 크기 전반에 걸쳐 통계적으로 유의미한 스케줄 선호도를 보이는 개별 크기가 없었으며, 크기별 평균 페널티는 시드 수준의 노이즈 내에서 진동합니다. 따라서 이 경계는 깨끗한 wd10 영역이 아니라, 50M 미만의 노이즈 지배 영역 (noise-dominated regime)과 50M 이상에서의 결정적인 wd33 영역 사이의 전이 구간입니다. 가중치-그리드-거리 (weight-to-grid-distance) 조사는 FP16/INT8/INT6 귀무 결과에 대한 가장 단순한 메커니즘(빠른 그리드 스냅핑, rapid grid-snapping)을 기각합니다: 웜다운 전, INT6-QAT 가중치는 FP16 가중치와 INT6 그리드로부터 본질적으로 동일한 거리에 위치합니다 (비율 ~ 1.04). 실무적 권장 사항: 1억(100M) 미만 규모에서는 FP16에서 LR 스케줄을 한 번 튜닝한 후 변경 없이 INT8/INT6 QAT에 적용하십시오. 50M 이상의 INT4의 경우 wd33을 사용하십시오. 50M 미만의 INT4의 경우 스케줄 선택은 노이즈 범위 내에 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0