구조적 관점에서의 대규모 언어 모델 (LLMs)의 다국어 능력
요약
본 연구는 LLM의 다국어 능력을 토큰 표현이 아닌 언어의 구조적 관점에서 분석합니다. 저자원 언어가 고/중자원 언어보다 영어와 구조적으로 더 다르며, 언어 특화 사후 학습이 언어 간 관계를 유지하며 구조를 변화시킨다는 점을 밝혀냈습니다.
핵심 포인트
- LLM의 다국어 능력을 표현 구조 분석으로 탐구
- 저자원 언어는 영어와 구조적 차이가 더 큼을 확인
- 사후 학습이 언어 간 관계를 보존하며 구조를 변화시킴
대규모 언어 모델 (LLMs)은 학습 데이터에서 영어가 지배적임에도 불구하고, 다국어 데이터에 대한 사전 학습 (Pre-training) 및 사후 학습 (Post-training)을 통해 여러 언어를 처리하는 데 탁월한 성능을 보여왔습니다. 토큰 표현 (Token representations)에 초점을 맞춘 기존 연구들은 이러한 LLM들이 비영어권 텍스트를 어떻게 처리하는지 밝혀냈습니다. 이러한 분석들이 통찰력 있는 발견을 제공해 왔으나, 언어의 내재적 속성인 구조적 관점 (Structural view)을 포착하는 데는 실패했습니다. 본 연구에서는 표현 구조 분석 (Representational structural analysis)을 통해 LLM의 다국어 능력을 탐구합니다. 우리의 연구 결과는 저자원 언어 (Low-resource languages)가 고자원 및 중자원 언어보다 영어와 구조적으로 더 다르며, 언어 특화 사후 학습 (Language-specific post-training)이 언어 간 관계를 보존하면서도 그 구조를 변화시킨다는 점을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기