본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 25. 15:44

데이터 제약 조건 하에서의 어휘적 개입을 통한 다국어 지식 전이

요약

데이터가 부족한 언어를 위해 고자원 언어의 지식을 효과적으로 전이하는 LINK 방법론을 제안합니다. 이중 언어 어휘집을 활용한 어휘 치환 방식을 통해 추가 학습 비용 없이 다국어 모델의 성능과 학습 속도를 크게 개선했습니다.

핵심 포인트

  • 데이터 부족 언어를 위한 교차 언어 지식 전이 최적화
  • 추가 학습 단계 없이 어휘 치환만으로 지식 전이 구현
  • 다양한 모델 크기와 8개 언어에서 성능 향상 입증
  • 동일 성능 도달을 위한 학습 속도 최대 2배 단축

교차 언어 지식 전이 (Cross-lingual knowledge transfer)는 학습 데이터가 불충분한 언어들을 위해 고성능 다국어 언어 모델 (Multilingual language models)을 구축하는 데 매우 중요합니다. 대상 언어의 데이터가 부족할 때, 과학적 추론 (Scientific reasoning), 상식적 추론 (Commonsense inference), 그리고 세상 지식 (World knowledge)을 포함하는 많은 다운스트림 태스크 (Downstream tasks)에 필요한 지식은 주로 고자원 언어 (High-resource language)로부터 습득되어야 하며, 따라서 효과적인 지식 전이가 필수적입니다. 이러한 교차 언어 지식 전이를 개선하기 위한 기존 방법들은 많은 양의 병렬 데이터 (Parallel data), 번역 시스템 (Translation systems), 보조 모델 (Auxiliary models), 또는 많은 언어에서 사용하기 어려운 추가적인 학습 단계 (Additional training stages)를 요구합니다. 우리는 사전 학습 (Pretraining) 데이터의 고자원 부분에서 이중 언어 어휘집 (Bilingual vocabularies)을 사용한 어휘 치환 (Lexical substitutions)을 통해 모델 사전 학습 중 지식 전이를 개선하는 데이터 수준의 개입 방법인 LINK를 제안합니다. 주어진 교체 비율 (Replacement ratio)에 따라, 고자원 (영어) 학습 코퍼스 (Training corpus)의 일부에서 무작위로 선택된 단어들을 단어 수준의 번역어로 교체하며, 이는 추가적인 모델 학습을 요구하지 않고 거의 모든 언어에 대해 거의 제로 비용으로 얻을 수 있는 이중 언어 어휘집만을 필요로 합니다. 5가지 모델 크기에 걸쳐 8개 언어를 대상으로 평가한 결과, 대상 언어의 다운스트림 태스크에서 주목할 만한 성능 향상을 보였으며, 동일한 성능에 도달하기 위한 학습 속도가 최대 2배까지 빨라졌습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0