내가 이걸 하고 있다니 믿기지 않네요. 방금 가장 큰 규모의 합성 병렬 다국어 OCR 데이터셋을 오픈 소스로 공개했습니다.
요약
22개 언어를 지원하는 100만 개 이상의 문서 이미지를 포함한 대규모 합성 병렬 다국어 OCR 데이터셋을 오픈 소스로 공개했습니다. OCR부터 문서 VLM 사전 학습까지 6가지 주요 태스크를 지원합니다.
핵심 포인트
- 22개 다국어 지원 및 100만 개 이상의 문서 이미지 포함
- OCR, 레이아웃 탐지, 문서 VQA 등 6개 태스크 지원
- 2026년에는 5배 더 큰 규모의 데이터셋 공개 예정
내가 이걸 하고 있다니 믿기지 않네요.
방금 가장 큰 규모의 합성 병렬 다국어 OCR (Optical Character Recognition) 데이터셋을 오픈 소스 (Open Sourced)로 공개했습니다.
100만 개 이상의 문서 이미지 (Document Images)
22개 언어 (Arabic, Bengali, German, English, Spanish, French, Gujarati, Hindi, Italian, Japanese, Kannada, Korean, Malayalam, Marathi, Odia, Punjabi, Russian, Sanskrit, Tamil, Telugu, Thai, Chinese)
6개 태스크 (OCR, 레이아웃 탐지 (Layout Detection), 레이아웃 인식 번역 (Layout-aware Translation), 문서 VQA (Document VQA), 교차 언어 검색 (Cross-lingual Retrieval), 문서 VLM 사전 학습 (Document VLM Pretraining))
추신: 이것은 2025년 코퍼스 (corpus)입니다. 2026년 버전은 약 5배 더 큽니다 (~440만 개의 이미지, 더 선명한 렌더링, 더 깨끗한 주석 (annotations)). 더 자세한 정보는 @cognitivelab_ai 에 문의하거나 contact@cognitivelab.in 으로 연락해 주세요.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @adithya_s_k (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기