본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 26. 13:38

언어 모델에서의 망각: 용량, 최적화, 그리고 자기 생성 재생 (Self-Generated Replay)

요약

언어 모델이 새로운 태스크를 학습할 때 발생하는 망각 현상을 해결하기 위해 '자기 생성 재생(Self-Generated Replay)' 기법을 제안합니다. 모델 스스로 생성한 샘플을 활용하면 이전 지식을 유지하면서도 효율적인 미세 조정이 가능함을 입증했습니다.

핵심 포인트

  • 자기 생성 샘플을 통한 망각 현상의 효과적 완화
  • 모델 용량(Capacity) 부족 시 발생하는 망각의 한계 발견
  • 재생 기법을 통한 학습률과 학습 속도 간의 트레이드오프 해결

새로운 태스크(Task)로 학습된 모델은 일반적으로 이전 태스크의 성능이 저하되는데, 이러한 현상을 망각 (Forgetting)이라고 합니다. 전통적으로 망각을 완화하기 위해서는 이전 태스크의 저장된 예시(Exemplars)를 재생 (Replaying)해야 했으나, 이는 종종 비현실적입니다. 이와 대조적으로, 언어 모델 (Language Models)은 자신의 학습 분포 (Training Distribution)로부터 샘플을 추출할 수 있으며, 본 연구에서는 이러한 자기 생성 샘플 (Self-generated samples)이 효과적인 재생 데이터 (Replay data)로 작용하여 망각을 거의 제거할 수 있음을 보여줍니다. 우리는 그럼에도 불구하고 모델에 남은 용량 (Capacity)이 적을 때는 망각이 지속된다는 것을 발견했습니다. 포화 (Saturation) 상태에 가깝게 사전 학습된 (Pretrained) 모델은 이전 지식을 덮어쓰지 않고는 새로운 정보를 흡수할 수 없습니다. 용량이 제한 요인이 아닐 경우, 낮은 학습률 (Learning rates)은 망각을 줄여주지만 실질적으로 훨씬 더 많은 학습 단계 (Training steps)를 요구합니다. 재생 (Replay)은 이러한 트레이드오프 (Tradeoff)를 깨뜨려, 망각 없이 빠르고 높은 학습률의 미세 조정 (Finetuning)을 가능하게 합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0