데이터 제약 조건 하에서의 어휘적 개입을 통한 다국어 지식 전이

교차 언어 지식 전이 (Cross-lingual knowledge transfer)는 학습 데이터가 불충분한 언어들을 위해 고성능 다국어 언어 모델 (Multilingual language models)을 구축하는 데 매우 중요합니다. 대상 언어의 데이터가 부족할 때, 과학적 추론 (Scientific reasoning), 상식적 추론 (Commonsense inference), 그리고 세상 지식 (World knowledge)을 포함하는 많은 다운스트림 태스크 (Downstream tasks)에 필요한 지식은 주로 고자원 언어 (High-resource language)로부터 습득되어야 하며, 따라서 효과적인 지식 전이가 필수적입니다. 이러한 교차 언어 지식 전이를 개선하기 위한 기존 방법들은 많은 양의 병렬 데이터 (Parallel data), 번역 시스템 (Translation systems), 보조 모델 (Auxiliary models), 또는 많은 언어에서 사용하기 어려운 추가적인 학습 단계 (Additional training stages)를 요구합니다. 우리는 사전 학습 (Pretraining) 데이터의 고자원 부분에서 이중 언어 어휘집 (Bilingual vocabularies)을 사용한 어휘 치환 (Lexical substitutions)을 통해 모델 사전 학습 중 지식 전이를 개선하는 데이터 수준의 개입 방법인 LINK를 제안합니다. 주어진 교체 비율 (Replacement ratio)에 따라, 고자원 (영어) 학습 코퍼스 (Training corpus)의 일부에서 무작위로 선택된 단어들을 단어 수준의 번역어로 교체하며, 이는 추가적인 모델 학습을 요구하지 않고 거의 모든 언어에 대해 거의 제로 비용으로 얻을 수 있는 이중 언어 어휘집만을 필요로 합니다. 5가지 모델 크기에 걸쳐 8개 언어를 대상으로 평가한 결과, 대상 언어의 다운스트림 태스크에서 주목할 만한 성능 향상을 보였으며, 동일한 성능에 도달하기 위한 학습 속도가 최대 2배까지 빨라졌습니다.

Insights

데이터 제약 조건 하에서의 어휘적 개입을 통한 다국어 지식 전이

요약

핵심 포인트

댓글

복리적 코드(Compounding Code)를 위한 신경계로서의 GitHub: 변화의 속도에서 살아남기

KPMG, AI 네이티브 기업 시스템 개발을 위해 OpenAI와 파트너십 체결

Microsoft와 Mistral, 기업용 AI 배포를 위한 파트너십 확대

Alphabet 실적 발표를 앞두고 반도체 랠리가 주춤하며 Nasdaq 선물 하락

복리적 코드(Compounding Code)를 위한 신경계로서의 GitHub: 변화의 속도에서 살아남기

KPMG, AI 네이티브 기업 시스템 개발을 위해 OpenAI와 파트너십 체결

Microsoft와 Mistral, 기업용 AI 배포를 위한 파트너십 확대

Alphabet 실적 발표를 앞두고 반도체 랠리가 주춤하며 Nasdaq 선물 하락