arXiv논문2026. 06. 23. 14:31

Koshur Pixel: 카슈미르어를 위한 대규모 합성 OCR 데이터셋

요약

카슈미르어 OCR 성능 향상을 위해 SynthOCR-Gen 프레임워크로 생성한 대규모 합성 데이터셋 'Koshur Pixel'을 소개합니다. 61만 개 이상의 이미지-텍스트 쌍을 통해 저자원 언어의 디지털화와 OCR 학습을 위한 효율적인 대안을 제시합니다.

핵심 포인트

카슈미르어 특유의 복잡한 스크립트를 반영한 대규모 합성 데이터셋 구축
SynthOCR-Gen 프레임워크를 활용한 613,078개의 이미지-텍스트 쌍 생성
25가지 이상의 증강 전략을 통해 실제 문서의 열화 상태 모방
저자원 언어의 OCR 시스템 학습 및 디지털 유산 보존을 위한 기초 자원 제공

저자원 언어(low-resource languages)를 위한 광학 문자 인식 (OCR)은 주석이 달린 학습 데이터의 부족과 스크립트 특유의 렌더링 복잡성으로 인해 제약을 받는 경우가 많습니다. 주로 페르시아-아랍 나스탈리크 (Perso-Arabic Nastaliq) 스크립트로 작성되는 카슈미르어는 문맥에 따른 글리프 형성 (contextual glyph shaping), 조밀한 합자 (dense ligatures), 그리고 철자법의 가변성으로 인해 추가적인 어려움을 안겨줍니다. 본 연구에서는 SynthOCR-Gen 프레임워크를 사용하여 KS-PRET-5M 코퍼스로부터 생성된 613,078개의 이미지-텍스트 쌍으로 구성된, 카슈미르어를 위한 최초의 대규모 합성 OCR 데이터셋인 Koshur Pixel을 소개합니다. 이 데이터셋은 개별 단어부터 전체 페이지 문서에 이르기까지 다양한 폰트와 텍스트 입도 (textual granularities)를 아우르며, 실제 문서의 열화 (degradations)를 모방하는 25가지 이상의 증강 (augmentation) 전략을 포함합니다. Koshur Pixel은 수동 주석 작업에 대한 확장 가능하고 비용 효율적인 대안을 제공하며, OCR 시스템 학습, 카슈미르어 텍스트 유산의 디지털화, 그리고 심각한 저자원 언어를 위한 언어 기술 발전을 위한 기초 자원을 구축합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Koshur Pixel: 카슈미르어를 위한 대규모 합성 OCR 데이터셋

요약

핵심 포인트

댓글