Fine-tuning increases hallucinations
요약
새로운 연구에 따르면, SFT(Supervised Fine-Tuning)와 같은 미세 조정 과정은 모델의 사전 학습 지식을 방해하여 사실적 오류(환각)를 유발할 수 있습니다. 이 문제를 해결하기 위해 저자들은 자기 증류(self-distillation) 기법을 제안하여 출력 분포를 정규화하고, 선택적 파라미터 고정(selective parameter freezing)을 적용하여 성능 유지와 환각 감소를 동시에 달성하는 방법을 제시했습니다.
핵심 포인트
- SFT 기반 미세 조정은 사전 학습 지식에 간섭을 일으켜 사실적 오류(환각)를 유발할 수 있다.
- 자기 증류(self-distillation)는 출력 분포를 정규화하여 환각 문제를 완화하는 효과적인 방법이다.
- 선택적 파라미터 고정(selective parameter freezing)을 통해 모델의 성능 저하 없이 안정적으로 미세 조정이 가능하다.
새로운 연구에 따르면 SFT(강화학습) 는 사전 학습된 지식을 방해하여 사실적 오류를 유발합니다. 저자들은 새로운 사실을 잊지 않고 학습하기 위해 자기 증류 (self-distillation) 를 제안하고, 성능을 유지하면서 환각 (hallucinations) 을 줄이기 위해 선택적 파라미터 고정 (selective parameter freezing) 을 적용했습니다.
토론:
https://huggingface.co/papers/2604.15
환각은 미세 조정 (fine-tuning) 과정에서 발생하는 의미적 간섭에서 비롯됩니다. 자기 증류는 출력 분포를 정규화하여 이를 완화합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기