Electronic Babylonian Library 전반에 걸친 자동 문자 탐지: 대규모 데이터셋 및 엔드투엔드 (end-to-end)
요약
설형문자 점토판의 자동 해독을 위해 DETR 기반의 객체 탐지 모델을 활용한 연구입니다. 대규모 주석 데이터셋을 통해 시각적 문자 탐지와 텍스트 구조를 통합하는 엔드투엔드 시스템을 제안하며, 기존 연구 대비 성능을 크게 개선했습니다.
핵심 포인트
- DETR 기반 모델을 활용한 설형문자 객체 탐지 성능 향상
- 자동 측 추출 및 n-gram 기반 텍스트 유사도 평가 통합
- 이전 연구 대비 COCO 지표 기준 최대 28-37% 개선
- 언어적 사전 지식 없이도 확장 가능한 분석 토대 마련
설형문자 점토판을 읽는 법을 배우는 것은 매우 까다로운 작업입니다. 그 결과, 발굴된 약 50만 개의 점토판 중 아주 적은 부분만이 아시리아 학자(Assyriologists)들에 의해 분석되었습니다. 컴퓨터 비전 (Computer vision)은 해독을 위한 유망한 방안을 제시하지만, 대규모의 조밀하게 주석이 달린 데이터셋 (datasets)을 필요로 합니다. 이러한 한계를 해결하기 위해, 현재까지 가장 큰 규모의 주석이 달린 설형문자 문자 데이터셋을 사용하였으며, 173개 및 106개의 클래스라는 두 가지 클래스 세분화 수준(class granularities) 하에서 Deformable Detection Transformer (DETR) 기반의 객체 탐지 (object detection) 모델을 평가했습니다. 제안된 시스템은 시각적 문자 탐지와 텍스트 구조 사이의 간극을 메우기 위해 자동 점토판 측 추출 (tablet-side extraction), 휴리스틱 라인 그룹화 (heuristic line grouping), 그리고 n-gram 기반 텍스트 유사도 평가를 통합하며, COCO 스타일의 탐지 지표 (detection metrics) 상에서 이전 연구 대비 최대 28-37%의 일관된 개선을 달성했습니다. 추론 (inference) 단계에서 이 방법은 Electronic Babylonian Library (eBL) 코퍼스(corpus)의 87,668개 점토판 파편에 적용되어, 약 290만 개의 문자 탐지 결과를 생성했습니다. 이 접근 방식은 언어적 사전 지식 (linguistic priors) 없이 작동하며 점토판의 손상 및 레이아웃 가변성에 민감하게 반응하지만, 코퍼스 전반의 설형문자 분석을 위한 확장 가능하고 해석 가능한 토대를 제공하며 향후 멀티모달 (multimodal) 및 언어 모델링 프레임워크와의 통합을 지원합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기