Fine-tuning increases hallucinations

요약

새로운 연구에 따르면, SFT(Supervised Fine-Tuning)와 같은 미세 조정 과정은 모델의 사전 학습 지식을 방해하여 사실적 오류(환각)를 유발할 수 있습니다. 이 문제를 해결하기 위해 저자들은 자기 증류(self-distillation) 기법을 제안하여 출력 분포를 정규화하고, 선택적 파라미터 고정(selective parameter freezing)을 적용하여 성능 유지와 환각 감소를 동시에 달성하는 방법을 제시했습니다.

핵심 포인트

SFT 기반 미세 조정은 사전 학습 지식에 간섭을 일으켜 사실적 오류(환각)를 유발할 수 있다.
자기 증류(self-distillation)는 출력 분포를 정규화하여 환각 문제를 완화하는 효과적인 방법이다.
선택적 파라미터 고정(selective parameter freezing)을 통해 모델의 성능 저하 없이 안정적으로 미세 조정이 가능하다.

새로운 연구에 따르면 SFT(강화학습) 는 사전 학습된 지식을 방해하여 사실적 오류를 유발합니다. 저자들은 새로운 사실을 잊지 않고 학습하기 위해 자기 증류 (self-distillation) 를 제안하고, 성능을 유지하면서 환각 (hallucinations) 을 줄이기 위해 선택적 파라미터 고정 (selective parameter freezing) 을 적용했습니다.

토론:
https://huggingface.co/papers/2604.15

환각은 미세 조정 (fine-tuning) 과정에서 발생하는 의미적 간섭에서 비롯됩니다. 자기 증류는 출력 분포를 정규화하여 이를 완화합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Fine-tuning increases hallucinations

요약

핵심 포인트

댓글