본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 26. 12:50

사전 학습(Pre-Training) 단계에서의 다국어 능력을 위한 모델 병합(Model Merging)의 한계에 대하여

요약

단일 언어 사전 학습 모델들을 병합하여 다국어 능력을 확보하려는 시도의 한계를 연구했습니다. 실험 결과, 모델 병합 시 발생하는 간섭 현상으로 인해 성능 붕괴가 나타남을 확인했습니다.

핵심 포인트

  • 단일 언어 모델 병합 시 간섭으로 인한 성능 붕괴 발생
  • 단일 언어 사전 학습 모델이 다국어 혼합 모델보다 우수함
  • 모델 병합의 전제 조건으로 표현 유사성이 중요함
  • 미세 조정 단계의 병합 유연성이 사전 학습 단계로 확장되지 않음

모델에 일관된 다국어 성능을 부여하는 것은 사전 학습 (Pre-training) 데이터를 혼합하거나, 언어별 모델 병합 (Model merging)과 같은 사후 학습 (Post-training) 접근 방식을 통해 달성될 수 있습니다. 본 연구에서는 단일 언어로 사전 학습된 모델들에 병합 (Merging) 기술을 적용할 수 있는지 테스트합니다. 우리는 혼합 (Mixed), 병합 (Merged), 그리고 단일 언어 사전 학습 (Monolingual pre-training) 설정의 효능에 대해 통제된 연구를 수행합니다. 연구 결과, 단일 언어 사전 학습은 해당 언어에서의 강력한 성능을 보여주는 반면, 단일 언어 모델들의 어떤 조합을 병합하더라도 간섭 (Interference)으로 인해 성능 붕괴 (Performance collapse)가 발생한다는 것을 발견했습니다. 우리의 분석은 표현 유사성 (Representational similarity)이 모델 병합의 전제 조건임을 시사합니다. 따라서 우리는 미세 조정 (Fine-tuning) 단계에서의 병합이 가진 유연성이 언어별 사전 학습 (Language-specific pre-training) 단계로 당연하게 확장되지는 않는다는 결론을 내립니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0