
놓치셨을 수도 있는, 방금 공개된 최대 규모의 오픈 소스 다국어 OCR 데이터셋
요약
22개 언어와 6개 태스크를 포함하는 100만 개의 이미지로 구성된 최대 규모의 오픈 소스 다국어 OCR 데이터셋이 공개되었습니다. Hugging Face에서 트렌드로 떠오르며 멀티모달 연구 분야에서 주목받고 있습니다.
핵심 포인트
- 100만 개의 이미지 데이터 포함
- 22개 언어 지원 및 6개 태스크 구성
- Hugging Face에서 멀티모달 트렌드로 부상
놓치셨을 수도 있는, 방금 공개된 최대 규모의 오픈 소스 (Open Source) 다국어 OCR 데이터셋
100만 개 (1M)의 이미지, 22개 언어, 6개 태스크 (tasks)
지난 3일 동안 약 3,000건의 다운로드를 기록하며 멀티모달 (multimodal) 카테고리에서도 트렌드로 떠오르고 있습니다.
그가 @huggingface 에 가장 큰 단백질 (Protein) 데이터셋을 무심하게 공개했습니다. 여러분, 확인해 보세요!!
AI 자동 생성 콘텐츠
본 콘텐츠는 X @adithya_s_k (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기