본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 25. 16:47

명말청초 문집 내 개인 서신 제목 분류를 위한 미세 조정된 BERT 분류기

요약

명말청초 문집 내 제목을 분석하여 개인 서신과 서문을 구분하는 BERT 기반 분류기 'Lepton'을 소개합니다. 5,438개의 라벨링된 데이터를 통해 bert-base-chinese를 미세 조정하였으며, 이를 통해 명 서신 플랫폼 구축에 기여했습니다.

핵심 포인트

  • BERT를 활용한 한문 문집 제목 분류 모델 개발
  • 개인 서신과 서문을 정밀하게 구분하는 미세 조정 수행
  • Hugging Face를 통한 모델 배포 및 데이터 활용
  • 명 서신 플랫폼 구축을 위한 55,000개 서신 식별

저는 Lepton (Letter Prediction)을 소개합니다. 이는 한문 문집 (Classical Chinese wenji) 목차에 등장하는 제목이 개인 서신 (personal letter)인지, 혹은 매우 혼동하기 쉬운 서문 (preface, 특히 작별 서문인 farewell-preface)인지를 예측하는 미세 조정된 (fine-tuned) BERT 분류기입니다. Lepton은 33명의 명말청초 문인들의 수기로 라벨링된 5,438개의 문집 제목을 사용하여 bert-base-chinese를 미세 조정했습니다. 저는 이 모델을 Hugging Face에 배포하였으며, 중국 인물 데이터베이스 (China Biographical Database, CBDB)에서 명대 중기부터 청대 초기에 이르는 문집 전반에 걸쳐 약 55,000개의 서신을 식별하는 데 사용되어 명 서신 플랫폼 (Ming Letter Platform)을 구축하는 데 기여했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0