Manga109-v2026: 현대적 만화 이해를 위한 Manga109 어노테이션 재검토
요약
Manga109 데이터셋의 전사 오류와 부정확한 어노테이션 문제를 해결하기 위해 Manga109-v2026을 구축했습니다. OCR 기반 탐지와 수동 수정을 결합하여 약 29,000개의 대화 어노테이션을 개선함으로써 현대적인 멀티모달 만화 이해 연구에 최적화된 데이터셋을 제공합니다.
핵심 포인트
- 기존 Manga109 데이터셋의 전사 오류, 누락된 텍스트, 말풍선 과소 분할 등 5가지 주요 문제 식별
- OCR 기술과 수동 수정 프로세스를 결합한 데이터 정제 방법론 적용
- 약 29,000개의 대화 어노테이션을 수정하여 데이터 품질 향상
- 현대적인 OCR 및 멀티모달 만화 이해 시스템 연구를 위한 고품질 기초 데이터셋 제공
만화(Manga)는 문화적으로 독특한 멀티모달 (multimodal) 매체이자 일본 대중문화에서 가장 영향력 있는 형태 중 하나입니다. AI 시스템이 만화 이해, OCR (광학 문자 인식), 그리고 번역을 점점 더 목표로 함에 따라, Manga109는 만화 관련 AI 연구를 위한 기초적인 데이터셋이 되었습니다. 그러나 현재의 Manga109 데이터셋은 전사 오류 (transcription errors)와 거친 어노테이션 (coarse annotations)을 포함하고 있으며, 이는 현대의 OCR 및 멀티모달 만화 이해 작업과 잘 일치하지 않습니다. 본 연구에서는 Manga109의 대화 텍스트 어노테이션을 재검토하여 전사 오류, 누락된 텍스트 영역, 대화와 의성어의 중첩, 그리고 과소 분할된 말풍선 (under-segmented speech balloons)을 포함한 다섯 가지 범주의 어노테이션 문제를 식별했습니다. 이러한 문제를 해결하기 위해, 우리는 OCR 기반의 문제 탐지와 수동 수정을 결합하여 약 29,000개의 대화 어노테이션을 수정한 Manga109-v2026을 구축했습니다. 우리의 수정 작업은 만화 특유의 표현 구조를 보존하면서도, Manga109를 현대의 OCR 및 멀티모달 만화 이해 시스템에 더 잘 부합하도록 개선했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기