Urdu Katib 필기체 데이터셋: CRNN 기반 베이스라인 평가를 통한 오프라인 우르두어 필기 텍스트 인식용 역사적 문서 데이터셋
요약
우르두어 필기 텍스트 인식(UHTR) 연구를 위해 역사적 문서 기반의 'Urdu Katib' 데이터셋을 제안합니다. CRNN 기반 모델들을 평가한 결과, CNN-BGRU-CTC 모델이 가장 낮은 오류율을 기록하며 우수한 성능을 보였습니다.
핵심 포인트
- 최초의 오프라인 우르두어 필기 텍스트 라인 데이터셋(UKHD) 공개
- Nastalique 서예 스타일의 다양한 필기 변형 포함
- CRNN 기반 하이브리드 모델을 통한 성능 평가 수행
- CNN-BGRU-CTC 모델이 CER 및 WER 측면에서 가장 강력한 성능 입증
자동 필기 텍스트 인식 (HTR, Automatic Handwritten Text Recognition)은 본질적으로 어려운 작업이며, 흘림체 (cursive scripts)를 다룰 때 그 복잡성이 더욱 증가합니다. 다양한 흘림체에 대해 상당한 노력이 이루어져 왔음에도 불구하고, 우르두어 필기 텍스트 인식 (UHTR, Urdu Handwritten Text Recognition)에 관한 연구는 상대적으로 제한적이었습니다. 이러한 연구의 지체는 주로 우르두어 서체가 가진 독특한 도전 과제와 벤치마크 데이터셋의 부족 및 가용성 문제 때문입니다. 따라서 UHTR 연구를 발전시키기 위해, 본 연구는 Urdu Katib 필기체 데이터셋 (UKHD, Urdu Katib Handwritten Dataset)이라 불리는 특화된 실제 데이터셋을 제시합니다. 저희가 알고 있는 바로는, 이는 역사적 시대의 Katib들이 작성한 자료로부터 특별히 큐레이션된 최초의 오프라인 우르두어 필기 텍스트 라인 데이터셋입니다. 이 데이터셋은 Nastalique 서예 스타일의 다양한 평촉 (flat nib) 필기 변형을 포함하고 있습니다. 또한, 우르두어 Katib 필기 인식 (UKHR, Urdu Katib Handwriting Recognition)을 위한 최적의 아키텍처를 식별하기 위해 다양한 CRNN 기반 하이브리드 모델의 효과를 평가했습니다. 분석된 모델 중 CNN-BGRU-CTC 모델이 낮은 문자 오류율 (CER, Character Error Rate)과 단어 오류율 (WER, Word Error Rate)을 보이며 더 강력한 성능을 나타냈습니다. 본 연구 작업은 우르두어 필기 문학을 보존하기 위한 강력한 인식 시스템을 개발하는 데 있어 연구 커뮤니티를 지원하고 장려하는 것을 목표로 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기