발달적 접근법을 통해 밝혀진 신경 언어 모델(NLM)의 통계적 학습: Transformer는 가장 추상적인 통계적 패턴으로부터 일반화한다
요약
Transformer 모델이 합성 문법을 학습하는 과정을 발달적 관점에서 분석한 연구입니다. 모델이 초기에는 추상적인 전역적 통계 지식을 먼저 습득하고, 이후 국소적 의존성을 학습한다는 사실을 밝혀냈습니다.
핵심 포인트
- Transformer는 초기 단계에서 가장 추상적인 통계 패턴부터 학습함
- 학습이 진행됨에 따라 국소적인 통계적 의존성을 습득함
- 학습 초기에는 과잉 일반화 현상이 나타나며 후기에 점진적으로 제약됨
- NLM의 통계적 학습과 언어 인지를 설명하는 새로운 프레임워크 제안
본 연구에서는 신경 언어 모델(NLM)의 통계적 학습(statistical learning)과 정신적 표상(mental representation)을 조사하기 위해 발달적 접근법(developmental approach)을 사용합니다. 일련의 생성형 Transformer 모델들이 합성 문법(synthetic grammar)을 바탕으로 학습됩니다. 모델의 상태는 학습 과정 중 여러 단계에서 저장됩니다. 이러한 모델들의 내부 표상(internal representations)이 발달 경로에서 어떻게 변화하는지 분석함으로써, 우리는 NLMs가 학습 초기 단계에서 가장 추상적인 전역적 통계 지식(global statistical knowledge)을 습득하고, 이후 상대적으로 국소적인 통계적 의존성(local statistical dependencies)을 습득한다는 것을 발견했습니다. 이 학습 경로는 시작부터 많은 과잉 일반화(over-generalizations)를 포함하고 있으며, 이러한 과잉 일반화는 학습의 후기 단계에서 점진적으로 제약됩니다. 이러한 관찰을 바탕으로, 우리는 NLMs의 통계적 학습과 언어 인지(language cognition)를 설명하기 위한 새로운 프레임워크를 제안합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기