arXiv논문2026. 06. 09. 11:51

PriFT: 사전 지식 지원 기반의 지도 미세 조정 (Prior-Support Guided Supervised Fine-Tuning)

요약

SFT 과정에서 발생하는 과적합 문제를 해결하기 위해, 동결된 사전 학습 모델의 분포를 활용하는 PriFT 기법을 제안합니다. 모델의 사전 지식을 왜곡하지 않도록 토큰 가중치를 재설정하여 일반화 성능과 RL 초기화 상태를 개선합니다.

핵심 포인트

SFT의 오프-폴리시 목적 함수로 인한 과적합 문제 해결
동결된 사전 학습 참조 모델을 통한 안정적인 재가중치 신호 도출
PriFT-prob 및 PriFT-mass 두 가지 구현 방식 제안
수학, 코드 생성, 의료 분야에서 SOTA 성능 달성

지도 미세 조정 (Supervised Fine-Tuning, SFT)은 다운스트림 태스크 적응 (downstream task adaptation)을 위한 효율적인 접근 방식이며, 종종 강화 학습 (Reinforcement Learning, RL)을 위한 초기화 단계 역할을 하지만, RL보다 일반화 성능이 약하게 나타날 수 있습니다. 주요 한계점은 오프-폴리시 (off-policy) 목적 함수입니다. SFT는 고정된 데모 (demonstrations)를 토큰 단위로 맞추는데, 여기에는 모델의 사전 학습된 분포 (pretrained distribution)와 잘 정렬되지 않는 타겟들이 포함되어 있어 과적합 (overfitting)을 유발할 수 있습니다. 최근의 연구들은 현재 모델의 예측 분포 (predictive distribution)와 더 잘 정렬된 토큰에 더 큰 학습 가중치를 부여함으로써 이 문제를 해결하려 하며, 이러한 토큰들을 맞추는 것이 모델의 사전 학습된 지식과 표현 (representations)을 덜 왜곡한다는 직관을 바탕으로 합니다. 그러나 현재 미세 조정 중인 모델로부터 토큰 가중치를 계산하면 토큰 가중치가 최적화 경로 (optimization trajectory)와 얽히게 되어, 분포가 사전 학습된 모델로부터 빠르게 벗어남에 따라 자기 강화 역학 (self-reinforcing dynamics)을 유발합니다. 이를 해결하기 위해, 우리는 미세 조정의 영향을 받지 않는 안정적인 재가중치 (reweighting) 신호를 얻기 위해 동결된 사전 학습 참조 모델 (frozen pretrained reference)로부터 토큰 가중치를 도출하는 PriFT (Prior-support guided Fine-Tuning)를 제안합니다. 이 신호는 사전 지식 지원 (prior support), 즉 각 타겟 토큰이 사전 학습된 분포에 의해 지원되는 정도를 추정합니다. 기존의 여러 토큰 재가중치 규칙 전반에 걸쳐, 온라인 모델의 재가중치 신호를 사전 학습된 모델로 교체하는 것만으로도 성능이 일관되게 향상되었습니다. 우리는 두 가지 구현 방식을 소개합니다: PriFT-prob는 사전 학습된 토큰 확률을 사용하며, PriFT-mass는 사전 학습된 분포 하의 누적 확률 질량 (cumulative probability mass)에 따라 토큰을 선택합니다. 수학적 추론 (mathematical reasoning), 코드 생성 (code generation), 의료 질의응답 (medical question answering)에 대한 광범위한 실험을 통해 PriFT가 SFT 베이스라인들 사이에서 최첨단 (state-of-the-art) 결과를 달성하며, 후속 RL 학습을 위한 더 나은 초기화 상태를 제공함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

PriFT: 사전 지식 지원 기반의 지도 미세 조정 (Prior-Support Guided Supervised Fine-Tuning)

요약

핵심 포인트

댓글