arXiv논문2026. 05. 13. 05:55

합성 전(Pre)-사전 훈련이 언어 모델의 노이즈가 포함된 사전 훈련 데이터에 대한 강건성을 향상시킨다

요약

본 연구는 대규모 언어 모델(LLMs)의 사전 훈련 데이터에 내재된 노이즈가 모델 성능을 저하시키는 문제를 다루며, 이를 해결하기 위해 합성 데이터를 기반으로 하는 경량의 전(Pre)-사전 훈련(PPT) 단계를 제안합니다. 다양한 손상 설정에서 PPT를 거친 모델은 후속 사전 훈련 단계에서 노이즈 데이터에 대한 강건성을 일관되게 향상시키는 것으로 나타났습니다. 특히, 이 방법은 적은 양의 합성 데이터를 사용하여 자연어 텍스트의 토큰 사용량을 크게 줄이면서도 높은 성능을 유지할 수 있음을 입증했습니다.

핵심 포인트

LLMs는 웹 코퍼스 기반 사전 훈련 데이터에 내재된 노이즈 문제에 직면한다.
합성 데이터를 활용한 경량의 전(Pre)-사전 훈련(PPT) 단계가 모델의 강건성을 높이는 데 효과적이다.
PPT는 단순히 노이즈를 직접적으로 차단하는 것이 아니라, 노이즈가 포함된 데이터 처리 과정에서 주의 가중치를 점진적으로 낮추어 안정화시킨다.
실험 결과, PPT는 적은 양의 합성 토큰(예: 1B 매개변수 모델의 경우 65M 토큰)만으로도 기존 자연어 텍스트 대비 상당한 효율성 향상을 보여준다.

대규모 언어 모델(LLMs)은 사전 훈련을 위해 웹 규모 코퍼스에 의존합니다. 이러한 데이터셋에 내재된 노이즈는 의미 있는 패턴을 흐리게 만들고 궁극적으로 모델 성능을 저하시킵니다. 데이터 큐레이션이 이러한 노이즈를 완화할 수는 있지만 제거할 수는 없기 때문에, 사전 훈련 코퍼스는 실제로는 여전히 노이즈가 많습니다. 따라서 우리는 학습 가능한 시간적 구조를 가진 합성 데이터를 기반으로 하는 경량의 전(Pre)-사전 훈련(PPT) 단계가 사전 훈련(PT) 단계에서 노이즈 데이터에 저항하는 데 도움이 되는지 연구합니다. 다양한 손상 설정에서, 우리의 방법은 PT 중 노이즈에 대한 강건성을 일관되게 향상시키며, 높은 노이즈 수준에서 더 큰 상대적 이득을 보입니다. 1B 매개변수 모델의 경우, 단 65M 토큰으로 구성된 합성 PPT 단계는 다양한 노이즈 수준에서 기준선과 동일한 최종 손실을 달성하면서 최대 49% 적은 자연어 텍스트 PT 토큰을 사용합니다. 메커니즘 분석에 따르면 PPT는 노이즈가 포함된 토큰에 대한 주의(attention)를 즉시 억제하지 않습니다. 오히려, PPT로 초기화된 모델은 노이즈가 포함된 PT 과정 동안 손상된 토큰 간의 주의 가중치를 점진적으로 낮춥니다. 이는 합성 PPT가 노이즈 자체 모델링을 억제하고 후속 최적화 궤적을 형성함을 나타냅니다. 코드는 https://github.com/guox18/formal-language-prepretraining에서 이용 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

합성 전(Pre)-사전 훈련이 언어 모델의 노이즈가 포함된 사전 훈련 데이터에 대한 강건성을 향상시킨다

요약

핵심 포인트

댓글