arXiv논문2026. 05. 26. 12:49

1억 미만 파라미터 양자화 인식 학습(QAT)에서의 스케줄 x 비트 너비 경계 매핑

요약

1억 미만 파라미터 규모의 디코더 언어 모델을 대상으로 양자화 인식 학습(QAT) 시 비트 너비에 따른 최적의 학습률 스케줄 변화를 연구했습니다. 실험 결과, INT8/INT6 환경에서는 비트 너비와 상관없이 FP16의 스케줄을 그대로 사용할 수 있으나, INT4의 경우 50M 파라미터 기준으로 스케줄링 양상이 달라짐을 확인했습니다.

핵심 포인트

INT8/INT6 QAT는 FP16에서 튜닝된 LR 스케줄을 그대로 적용 가능
50M 이상의 INT4 모델은 wd33(33% 웜다운) 스케줄이 결정적으로 최적
50M 미만 모델은 스케줄 선택이 노이즈 범위 내에 있어 유의미한 차이 없음
INT6 페널티는 로그 선형 스케일링 법칙을 따름

우리는 1억(100M) 미만 디코더 언어 모델(decoder language models)을 위한 초기화 단계부터의 양자화 인식 학습 (Quantisation-Aware Training, QAT) 과정에서 최적의 학습률 (Learning-rate, LR) 스케줄이 비트 너비 (bit-width)에 따라 달라지는지 테스트합니다. 비트 너비 x 웜다운 비율 (warmdown fraction) x LR 크기 (magnitude) x 모델 크기 x 시드 (seed) (FP16/INT8/INT6, 15M-100M, 5개 시드)에 대해 720회 실행된 요인 그리드 (factorial grid) 실험 (Phase 2) 결과, 모든 (비트 너비, 크기) 셀에서 최적의 웜다운은 33%임을 발견했습니다. 'INT6 QAT는 더 높은 정밀도의 학습과는 다른 스케줄이 필요하다'는 주요 가설은 FP16/INT8/INT6 환경에서 기각되었습니다. 625회 실행된 후속 연구 (Phase 5)는 다섯 가지 축을 따라 귀무 가설 (null hypothesis)을 조사합니다: 옵티마이저 (optimiser, AdamW), 스케줄 형태 (schedule shape, cosine), 학습 길이 (training length, 최대 9배 더 많은 반복 횟수), 확장된 크기 스윕 (extended size sweep, 5M-350M), 그리고 3M에서 100M까지의 INT4 스윕입니다. 귀무 가설은 세 가지 설정 변경 하에서도 견고하게 유지되었습니다. INT6 페널티 (penalty)는 로그 선형 스케일링 법칙 (log-linear scaling law)을 따르며, Phase 2에서의 적합도는 제외된 다섯 가지 Phase 5 크기 (5M, 8M, 175M, 250M, 350M)를 95% 예측 구간 내에서 예측합니다 (5/5). INT4의 경우 고정밀도 모델보다 양상이 더 뚜렷합니다: 50M 및 100M에서는 wd33이 결정적으로 최적입니다 (paired z ~ 12-15, 10/10 시드). 50M 미만에서는 테스트된 3M에서 30M 사이의 6개 크기 전반에 걸쳐 통계적으로 유의미한 스케줄 선호도를 보이는 개별 크기가 없었으며, 크기별 평균 페널티는 시드 수준의 노이즈 내에서 진동합니다. 따라서 이 경계는 깨끗한 wd10 영역이 아니라, 50M 미만의 노이즈 지배 영역 (noise-dominated regime)과 50M 이상에서의 결정적인 wd33 영역 사이의 전이 구간입니다. 가중치-그리드-거리 (weight-to-grid-distance) 조사는 FP16/INT8/INT6 귀무 결과에 대한 가장 단순한 메커니즘(빠른 그리드 스냅핑, rapid grid-snapping)을 기각합니다: 웜다운 전, INT6-QAT 가중치는 FP16 가중치와 INT6 그리드로부터 본질적으로 동일한 거리에 위치합니다 (비율 ~ 1.04). 실무적 권장 사항: 1억(100M) 미만 규모에서는 FP16에서 LR 스케줄을 한 번 튜닝한 후 변경 없이 INT8/INT6 QAT에 적용하십시오. 50M 이상의 INT4의 경우 wd33을 사용하십시오. 50M 미만의 INT4의 경우 스케줄 선택은 노이즈 범위 내에 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

1억 미만 파라미터 양자화 인식 학습(QAT)에서의 스케줄 x 비트 너비 경계 매핑

요약

핵심 포인트

댓글