arXiv논문2026. 05. 01. 15:56

분류를 위한 안정적인 미세 조정 (Fine-tuning) 을 위한 동적 스케일링 경사 하강법

요약

본 논문은 미세 조정된 사전 학습 모델이 희소하고 불균형한 데이터셋에서 겪는 최적화 불안정성 문제를 해결하기 위해 동적 스케일링 경사 하강법(DSGD)을 제안합니다. DSGD는 특히 올바르게 분류된 예제들이 반환하는 경사도를 동적으로 축소하여, 훈련 과정 중 발생하는 경사도 상쇄로 인한 성능 저하와 불안정성을 방지합니다. 실험 결과에 따르면, 이 방법은 다양한 작업과 대규모 모델에서 일관되게 성능 분산을 줄이고 기존 방식보다 높은 정확도를 달성함을 입증했습니다.

핵심 포인트

미세 조정(Fine-tuning) 과정에서 최적화가 붕괴 상태(collapsed state)에 빠지는 불안정성이 주요 문제로 지적됨.
이 문제는 주로 훈련 예제들 간의 경사도 상쇄(gradient cancellation) 때문에 발생함.
새로운 알고리즘인 동적 스케일링 경사 하강법(DSGD)을 제안하여, 올바르게 분류된 예제의 경사도를 동적으로 축소함.
DSGD는 훈련 안정성을 향상시키고 성능 분산을 줄여 기존 접근법보다 우수한 정확도를 제공함.

미세 조정된 사전 학습 모델은 새로운 희소하고 불균형한 데이터셋에서 정확도를 향상시키기 위해 사전 학습 지식을 적응시키는 표준적인 접근법이 되었습니다. 그러나 최적화가 붕괴 상태 (collapsed state) 로 빠질 경우 문제가 발생합니다. 이때 모델이 멈춰버려 성능 저하와 불안정한 훈련을 초래합니다. 이에 대한 가능한 원인 중 하나는 훈련 예제들 간의 경사도 (gradients) 상쇄입니다. 이 문제를 해결하기 위해 우리는 훈련 예제들이 반환하는 경사도를 직접 수정하는 새로운 알고리즘, 동적 스케일링 경사 하강법 (Dynamic Scaled Gradient Descent, DSGD) 을 제안합니다. 구체적으로, 올바르게 분류된 예제의 경사도는 동적 스ケー러 (dynamic scaler) 를 사용하여 축소합니다. 이 전략은 훈련 안정성을 향상시키는 데 이론적이고 경험적인 장점을 모두 제공합니다. 다양한 벤치마크 데이터셋에 대한 실험 결과, 여러 작업과 대규모 사전 학습 모델을 아우르는 우리의 방법은 일관되게 성능 분산을 줄이고 기존 접근법의 정확도를 능가함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

분류를 위한 안정적인 미세 조정 (Fine-tuning) 을 위한 동적 스케일링 경사 하강법

요약

핵심 포인트

댓글