arXiv논문2026. 04. 30. 13:41

Naamah: DBpedia 시딩 및 LLM 생성을 통한 대규모 합성 산스크리트어 NER 코퍼스

요약

본 연구는 고전 산스크리트어 문학의 디지털화에 필요한 주석된 개체명 인식(NER) 자원의 부족 문제를 해결하기 위해 Naamah라는 대규모 합성 데이터셋을 제안합니다. 이 데이터셋은 DBpedia에서 추출한 정보와 24B 파라미터 하이브리드 추론 모델의 생성 능력을 결합하여 문법적으로 자연스럽고 다양한 학습 데이터를 생성하는 독창적인 방법론을 사용합니다. 연구진은 이 합성 데이터셋으로 XLM RoBERTa 및 IndicBERTv2 같은 트랜스포머 아키텍처를 벤치마킹하며, 고전 언어 처리 분야의 발전에 기여하고자 합니다.

핵심 포인트

고전 산스크리트어 NER 자원 부족 문제를 해결하기 위해 Naamah라는 대규모 합성 데이터셋을 구축했습니다.
데이터 생성 방법론은 DBpedia 기반 개체 추출과 24B 파라미터 하이브리드 추론 모델의 능력을 결합합니다.
생성된 데이터는 문법적으로 자연스러우며, 다양한 학습 데이터를 제공하여 기존 LLM 접근 방식의 오류 취약성을 개선했습니다.
Naamah를 사용하여 XLM RoBERTa와 IndicBERTv2 등 주요 트랜스포머 모델을 벤치마킹할 계획입니다.

고전 산스크리트어 문학의 디지털화는 특히 개체명 인식 (Named Entity Recognition) 에 있어 주석이 달린 자원의 부족으로 인해 방해받고 있습니다. 최근 방법론들은 데이터 증강을 위해 범용 대형 언어 모델 (LLMs) 을 활용하지만, 이러한 접근법들은 여전히 오류에 취약하며 고전 문법에 필요한 추론 깊이가 부족합니다. 본 연구에서는 102,942 개의 문장으로 구성된 고품질 실버 표준 산스크리트어 NER 데이터셋인 Naamah 를 소개합니다. 우리는 DBpedia 에서 개체 추출과 24B 파라미터 하이브리드 추론 모델의 생성 능력을 결합하여 문법적으로 자연스럽고 합성적으로 다양한 학습 데이터를 생성하는 방법론을 제안합니다. 이 데이터셋을 사용하여 두 가지 트랜스포머 아키텍처인 대규모 다국어 XLM RoBERTa 와 파라미터 효율적인 IndicBERTv2 를 벤치마킹합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Naamah: DBpedia 시딩 및 LLM 생성을 통한 대규모 합성 산스크리트어 NER 코퍼스

요약

핵심 포인트

댓글