전통적인 태거에서 LLM까지: 중세 로망스 언어의 품사 태깅 비교 연구
요약
본 논문은 중세 오키탄어, 카탈루냐어, 프랑스어 등 세 가지 중세 로망스 언어에 대한 품사(POS) 태깅의 어려움을 다루며, 전통적인 규칙 기반/통계적 태거와 최신 LLM을 비교 평가합니다. 연구는 제로샷, 퓨샷 프롬프팅, 파인튜닝, 교차 언어 전이 학습 등 다양한 환경에서 실험한 결과, LLM 기반 접근 방식이 우수한 성능을 보였음을 입증했습니다. 특히 자원이 부족한 방언에 대한 교차 언어 전이 학습과 표적화된 이중 언어 훈련의 효과가 강조되며, 이는 역사적 NLP 연구를 위한 실질적인 지침을 제공합니다.
핵심 포인트
- LLM 기반 접근 방식은 중세 로망스 언어 POS 태깅에서 전통적인 방법론보다 일관되게 우수한 성능을 보인다.
- 파인튜닝과 다국어 훈련(multilingual training)이 LLM의 성능 개선에 가장 큰 영향을 미친다.
- 교차 언어 전이 학습은 자원이 부족한 중세 방언 처리에서 매우 효과적인 전략이다.
- 최적의 전이 전략은 단순히 광범위한 다국어 훈련보다는 언어학적 근접성을 고려한 표적화된 이중 언어 훈련일 수 있다.
중세 로망스 언어에 대한 품사(Part-of-speech, POS) 태깅은 표기학적 변이, 형태론적 복잡성, 그리고 제한적인 주석화된 자원 때문에 여전히 어려운 과제입니다. 본 논문은 세 가지 중세 방언인 중세 오키탄어(Medieval Occitan), 중세 카탈루냐어(Medieval Catalan), 중세 프랑스어(Medieval French)에 걸쳐 대규모 언어 모델(LLMs)을 이용한 POS 태깅에 대한 체계적인 실증 평가를 제시합니다. 우리는 전통적인 규칙 기반 및 통계적 태거와 현대의 오픈 소스 LLM을 제로샷 프롬프팅(zero-shot prompting), 퓨샷 프롬프팅(few-shot prompting), 단일 언어 파인튜닝(monolingual fine-tuning), 그리고 교차 언어 전이 학습(cross-lingual transfer learning) 환경에서 비교합니다. 역사적으로 기반을 둔 데이터셋에 대한 실험 결과, LLM 기반 접근 방식이 전통적인 태거보다 일관되게 우수한 성능을 보였으며, 특히 파인튜닝과 다국어 훈련이 가장 큰 개선 효과를 가져왔습니다. 특히 교차 언어 전이 학습은 자원이 부족한 방언(under-resourced varieties)에 상당한 이점을 제공하며, 특정 목표 언어의 경우 광범위한 다국어 구성보다 표적화된 이중 언어 훈련(bilingual training)이 더 나은 성능을 보일 수 있습니다. 이러한 결과는 역사적 자연어 처리(NLP)를 위한 전이 전략을 설계할 때 언어학적 근접성과 데이터셋의 특성이 중요하다는 점을 강조합니다. 본 연구 결과는 현대 신경망 방법론이 중세 텍스트 처리에 적용 가능성에 대한 실증적인 통찰력을 제공하며, 디지털 인문학 연구에서 LLM 기반 POS 태깅 파이프라인을 배포하기 위한 실제적인 지침을 제공합니다. 재현성을 위해 모든 코드, 모델 및 처리된 데이터셋을 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기