X요약2026. 05. 28. 17:10

놓치셨을 수도 있는, 방금 공개된 최대 규모의 오픈 소스 다국어 OCR 데이터셋

원문 발행 2026. 05. 28. 17:04원문 언어 영어AI 한국어 번역X @adithya_s_k (자동 발견) 원문 보기

요약

22개 언어와 6개 태스크를 포함하는 100만 개의 이미지로 구성된 최대 규모의 오픈 소스 다국어 OCR 데이터셋이 공개되었습니다. Hugging Face에서 트렌드로 떠오르며 멀티모달 연구 분야에서 주목받고 있습니다.

놓치셨을 수도 있는, 방금 공개된 최대 규모의 오픈 소스 (Open Source) 다국어 OCR 데이터셋

100만 개 (1M)의 이미지, 22개 언어, 6개 태스크 (tasks)

지난 3일 동안 약 3,000건의 다운로드를 기록하며 멀티모달 (multimodal) 카테고리에서도 트렌드로 떠오르고 있습니다.

그가 @huggingface 에 가장 큰 단백질 (Protein) 데이터셋을 무심하게 공개했습니다. 여러분, 확인해 보세요!!

AI 자동 생성 콘텐츠