인도 언어 처리를 위한 파니니(Pāninian) 기반 체계
요약
인도 언어들의 공통된 형태통사적 구조인 파니니(Pāninian) 프레임워크를 활용하여 파편화된 NLP 인프라를 통합하는 연구를 제안합니다. 이를 통해 데이터 효율성을 높이고, 통합된 계산 아키텍처와 벤치마크를 통해 언어 간 전이 학습을 강화하고자 합니다.
핵심 포인트
- 파니니 문법 체계를 활용한 인도 언어 통합 계산 아키텍처 제안
- 개별 언어 중심의 파편화된 NLP 인프라 문제 해결
- 데이터 효율성 및 언어 간 전이 가능성 향상
- 신경망 모델의 파니니 범주 표현 여부에 대한 해석 가능성 연구
10억 명 이상의 사람들이 인도 언어(Indic languages)로 소통하고 있지만, 이들을 지원하는 자연어 처리 (NLP) 인프라는 여전히 파편화되어 있고 미발달된 상태입니다. 그 원인은 구조적인 데 있습니다. 이 분야는 도구와 벤치마크를 개별 언어나 계통적 언어 가족의 작은 하위 집합을 중심으로 구성하며, 각 언어마다 별도의 분석기, 파서, 데이터셋을 구축하고 다음 언어를 위해 처음부터 다시 시작합니다. 이는 깊은 규칙성을 간과하는 것입니다. 2,000년이 넘는 시간 동안 산스크리트어 (Sanskrit)를 중심으로 한 수렴 과정을 통해, 인도 언어들은 파니니 (Pāninini)의 문법서인 아스타디야이 (Astādhyāyī)에 공식화된 형태통사적 (morphosyntactic) 구조를 공유하게 되었습니다. 이는 계통적 경계를 가로질러 공통된 프레임워크를 통해 언어들을 통합합니다. 우리는 이 파니니 프레임워크가 이 분야에 부족했던 통합적인 계산 아키텍처 (computational architecture)를 제공하며, 이에 명시적으로 기반을 둔 벤치마크가 인도 언어 시스템을 더욱 정확하고, 데이터 효율적이며, 전이 가능하게(transferable) 만들어, 겉보기에 이질적이고 희소한 많은 인도 언어 자원들을 하나의 고자원 메타언어(high-resource metalanguage) 기반으로 효과적으로 통합할 것이라고 주장합니다. 우리는 이 공유된 아키텍처를 명시적이고 측정 가능하며 실제 응용 분야에 활용할 수 있도록 만들기 위해 4부로 구성된 벤치마크 제품군을 제안합니다. 나아가, 우리는 이것이 해석 가능성 (interpretability) 연구에 던지는 질문, 즉 이러한 언어들로 학습된 신경망 모델 (neural models)이 스스로 파니니의 범주를 표현하게 되는지에 대해 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기