본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 30. 13:41

Naamah: DBpedia 시딩 및 LLM 생성을 통한 대규모 합성 산스크리트어 NER 코퍼스

요약

본 연구는 고전 산스크리트어 문학의 디지털화에 필요한 주석된 개체명 인식(NER) 자원의 부족 문제를 해결하기 위해 Naamah라는 대규모 합성 데이터셋을 제안합니다. 이 데이터셋은 DBpedia에서 추출한 정보와 24B 파라미터 하이브리드 추론 모델의 생성 능력을 결합하여 문법적으로 자연스럽고 다양한 학습 데이터를 생성하는 독창적인 방법론을 사용합니다. 연구진은 이 합성 데이터셋으로 XLM RoBERTa 및 IndicBERTv2 같은 트랜스포머 아키텍처를 벤치마킹하며, 고전 언어 처리 분야의 발전에 기여하고자 합니다.

핵심 포인트

  • 고전 산스크리트어 NER 자원 부족 문제를 해결하기 위해 Naamah라는 대규모 합성 데이터셋을 구축했습니다.
  • 데이터 생성 방법론은 DBpedia 기반 개체 추출과 24B 파라미터 하이브리드 추론 모델의 능력을 결합합니다.
  • 생성된 데이터는 문법적으로 자연스러우며, 다양한 학습 데이터를 제공하여 기존 LLM 접근 방식의 오류 취약성을 개선했습니다.
  • Naamah를 사용하여 XLM RoBERTa와 IndicBERTv2 등 주요 트랜스포머 모델을 벤치마킹할 계획입니다.

고전 산스크리트어 문학의 디지털화는 특히 개체명 인식 (Named Entity Recognition) 에 있어 주석이 달린 자원의 부족으로 인해 방해받고 있습니다. 최근 방법론들은 데이터 증강을 위해 범용 대형 언어 모델 (LLMs) 을 활용하지만, 이러한 접근법들은 여전히 오류에 취약하며 고전 문법에 필요한 추론 깊이가 부족합니다. 본 연구에서는 102,942 개의 문장으로 구성된 고품질 실버 표준 산스크리트어 NER 데이터셋인 Naamah 를 소개합니다. 우리는 DBpedia 에서 개체 추출과 24B 파라미터 하이브리드 추론 모델의 생성 능력을 결합하여 문법적으로 자연스럽고 합성적으로 다양한 학습 데이터를 생성하는 방법론을 제안합니다. 이 데이터셋을 사용하여 두 가지 트랜스포머 아키텍처인 대규모 다국어 XLM RoBERTa 와 파라미터 효율적인 IndicBERTv2 를 벤치마킹합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
7

댓글

0