Dango: 제2언어 습득 (SLA) 연구를 위한 엄격한 L1 전용 대규모 언어 모델 (LLM)
요약
제2언어 습득(SLA) 연구를 위해 설계된 1.8B 규모의 L1 전용 LLM인 Dango를 소개합니다. L1 사전 학습 데이터 내 L2 오염 문제를 해결하기 위한 필터링 기법을 제안하며, 인간과 유사한 L2 생성 패턴을 구현했습니다.
핵심 포인트
- L1-to-L2 전이 연구를 위한 1.8B 규모의 전용 모델 개발
- 사전 학습 데이터 내 L2 오염 문제를 해결하는 필터링 방법론 제안
- LLM 생성 L2 학습 데이터를 활용한 미세 조정(Fine-tuning) 수행
- 기존 다국어 모델 대비 인간과 유사한 L2 생성 패턴 입증
- 재현 가능한 연구를 위해 모델, 데이터, 코드 공개
우리는 제2언어 습득 (SLA) 과정에서 L1-to-L2 (일본어-영어) 전이 (transfer)에 대한 통제된 연구를 위해 설계된 1.8B 파라미터 규모의 대규모 언어 모델 (LLM)인 Dango를 소개합니다. 기존 연구들이 언어 모델에서의 SLA를 탐구해 왔으나, 주로 더 작은 규모이거나 디코더 (decoder)가 아닌 모델들에 의존해 왔으며, 이는 개방형 텍스트를 생성하는 능력을 제한하고 실질적인 L2 시뮬레이터로서의 적합성을 감소시켰습니다. 우리는 모델을 이 정도 규모로 확장할 때 발생하는 핵심 과제를 식별했습니다: 바로 L1 습득을 위해 사용된 "단일 언어 (monolingual)" 사전 학습 코퍼스 내에 존재하는 L2 오염 (contamination) 문제입니다. 이를 해결하기 위해, 우리는 현실적이고 최소한의 노출은 유지하면서 영어에 대한 조기 노출을 줄이는 필터링 방법을 제안합니다. 그 후, L2 습득 과정을 시뮬레이션하기 위해 LLM이 생성한 L2 학습 레슨 데이터로 모델을 미세 조정 (fine-tuning)합니다. 우리의 평가 결과, Dango는 필터링되지 않은 모델 및 표준 다국어 베이스라인 (baselines) 모델들보다 뛰어난 성능을 보이며 인간과 유사한 L2 생성 패턴을 발달시킨다는 것을 확인했습니다. 우리는 재현 가능한 계산적 SLA 연구와 학습자 대상 애플리케이션을 촉진하기 위해 모델, 데이터 및 코드를 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기