InfoSFT: 정보 인지 토큰 가중치 부여를 통해 더 많이 배우고 덜 잊기
요약
InfoSFT는 지도 미세 조정(SFT)의 한계를 극복하기 위해 제안된 새로운 방법론입니다. 표준 SFT가 낮은 가능도의 샘플에 과적합되거나 정책 변화를 유발하여 기존 능력을 저하시키는 문제를 해결합니다. InfoSFT는 정보량이 최대화된 중간 신뢰도 토큰(medium-confidence tokens)에 가중치를 부여하여 학습 신호를 집중함으로써, 모델의 일반화 성능을 향상시키고 동시에 기존 지식을 효과적으로 보존할 수 있습니다.
핵심 포인트
- InfoSFT는 SFT 목적 함수를 수정하여 정보량이 최대화된 중간 신뢰도 토큰에 가중치를 부여합니다.
- 표준 SFT는 낮은 가능도의 샘플에 과적합되거나 정책 변화(policy shifts)를 유발할 수 있습니다.
- InfoSFT는 일반화 성능을 향상시키면서 기존 모델의 능력을 보존하는 것을 목표로 합니다.
- 이 방법은 토큰 단위 손실 함수에 간단한 수정만으로 적용 가능하며, 다양한 작업에서 효과가 입증되었습니다.
지도 미세 조정 (Supervised fine-tuning, SFT)은 오프라인 전문가 시연으로부터 LLM (Large Language Models)에게 새로운 행동을 가르치는 표준적인 접근 방식을 제공합니다. 그러나 표준 SFT는 베이스 모델 (base model) 하에서 가능도 (likelihood)가 낮은 샘플을 포함하여 모든 샘플을 균등하게 학습시키는데, 이는 학습 업데이트를 목표 행동을 배우기보다는 특정 샘플에 과적합 (overfitting)되도록 불균형하게 유도할 수 있습니다. 더욱이, 이러한 낮은 가능도의 샘플에 적응하는 과정은 상당한 정책 변화 (policy shifts)를 유발하여 기존의 능력을 저하시킵니다. 기존 방법들은 낮은 가능도의 데이터를 필터링, 재생성 또는 가중치를 낮춤으로써 이를 완화합니다. 이 과정에서 이들은 베이스 모델이 아직 배우지 못한 바로 그 새로운 행동들을 억제하는 경우가 많습니다. 우리는 SFT 목적 함수를 위한 원칙적인 가중치 부여 방식인 InfoSFT를 제안합니다. 이는 학습 신호를 정보량이 최대화된 중간 신뢰도 (medium-confidence) 토큰, 즉 베이스 모델에게 너무 익숙하지도 않으면서 불안정성을 유발할 만큼 너무 낮지도 않은 토큰에 집중시킵니다. 표준적인 토큰 단위 손실 (token-wise loss)에 단 한 줄의 수정만을 요구하는 InfoSFT는 다양한 모델 제품군에 걸쳐 수학, 코드, 사고 사슬 (chain-of-thought) 작업에서 바닐라 SFT (vanilla SFT) 및 가능도 가중치 기반 베이스라인 (likelihood-weighted baselines)보다 일반화 성능을 입증 가능하게 향상시키는 동시에, 기존 능력을 더 잘 보존합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기