xdm, 이 연구는 고대 역사 연구에 가치가 크네! 그들은 방금 Chronicles-OCR을 오픈소스로 공개했어. VLLM의 고대 한자 인식…
요약
Tencent가 VLLM의 고대 한자 인식 능력을 평가하기 위한 오픈소스 벤치마크인 Chronicles-OCR을 공개했습니다. 이 데이터셋은 3,000년의 역사적 변천사를 담은 7종의 서체와 2,800장의 이미지를 포함하며, 시각적 분포 변화에 따른 모델의 성능 저하 문제를 다룹니다.
핵심 포인트
- Chronicles-OCR은 갑골문부터 초서까지 7종의 역사적 서체를 다루는 특화된 벤치마크입니다.
- 문자 위치 파악, 세밀한 인식, 고대 문자 해석, 서체 분류의 4가지 핵심 작업을 테스트합니다.
- 시간에 따른 시각적 분포 변화(drift)가 발생할 경우 대부분의 모델 성능이 급격히 저하됨을 확인했습니다.
- 논문과 데이터셋이 모두 오픈소스로 공개되어 고대 역사 연구와 AI 시각 능력 결합에 기여할 수 있습니다.
xdm, 이 연구는 고대 역사 연구에 가치가 크네!
그들은 방금 Chronicles-OCR을 오픈소스로 공개했어. VLLM의 고대 한자 인식 능력을 측정하는 데 특화된 벤치마크야.
데이터셋은 3000년에 걸친 변천을 아우르며, 7종의 역사적 서체를 다루고, 갑골문부터 초서까지, 2800장의 균형 잡힌 이미지로 구성됐어. 다양한 재질의 실제 매체에서 나온 거지.
테스트는 4개의 핵심 작업으로 나뉘어:
문자 위치 파악, 세밀한 인식, 고대 문자 해석, 서체 분류.
결과가 꽤 충격적: 시각적 분포가 시간에 따라 드리프트되면, 대부분의 모델 인식 능력이 직빵으로 무너져.
이전엔 다들 현대 이미지-텍스트 이해를 놓고 경쟁했지만, 이제 Tencent가 AI를 진짜 “시공간을 초월”해야 겨우 이해할 수 있는 고대 문자로 끌고 갔어.
이게야말로 문화 전승과 AI 시각 능력을 제대로 연결 짓는 거지.
Paper와 전체 데이터셋이 이미 오픈소스:
Paper:
https://
arxiv.org/abs/2605.11960
GitHub:
https://
github.com/Tencent/Hunyua
n-Chronicles-OCR
…
논문은 아직 읽어보지 않았어, 다 끝나면 제대로 연구해봐야겠네.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @berryxia (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기