
Tencent의 새로운 벤치마크, Chronicles-OCR
요약
Tencent가 고문자 인식 능력을 테스트하는 새로운 벤치마크 Chronicles-OCR을 출시했습니다. 실험 결과, 최신 멀티모달 모델들은 갑골문 등 고문자 인식에서 매우 낮은 정확도를 보였으며, 추론 모드가 오히려 환각을 증폭시키는 현상이 발견되었습니다.
핵심 포인트
- Tencent의 새로운 고문자 인식 벤치마크 Chronicles-OCR 출시
- 7대 고문자 분류를 포함한 전문가 라벨링 데이터 2,800장 활용
- 최신 VLLM 모델들이 고문자 인식에서 매우 낮은 성능 기록
- 추론(CoT) 활성화 시 인지 실패로 인한 환각 증폭 현상 확인
- 모델이 문자가 아닌 매체(용기)를 인식하는 한계 노출
Tencent(鹅厂)의 훌륭한 새로운 벤치마크(Benchmark)가 출시되었는데, 이름은 Chronicles-OCR입니다.
Tencent HY 연구소와 4개 기관이 공동으로 제작하였으며, AI의 3,000년 된 중국 고문자(Ancient Chinese Characters) 인식 능력을 전문적으로 테스트합니다.
전문가가 라벨링한 2,800장의 이미지는 갑골문(Oracle Bone Script), 금문(Bronze Inscriptions), 전서(Seal Script), 예서(Clerical Script), 해서(Regular Script), 행서(Running Script), 초서(Cursive Script)의 7대 분류를 포괄합니다.
결과는 28개의 최첨단 멀티모달(Multimodal) 모델이 모두 참패했습니다.
가장 강력한 VLLM(Vision-Language Large Model)조차 갑골문에서 단 14%의 정확도만을 기록했습니다.
엔드 투 엔드(End-to-end) 탐지의 H-mean은 최고 16.5%에 불과했습니다.
GPT-5와 Gemini 2.5 Pro는 거의 0에 수렴했습니다.
더욱 직관에 반하는 점은, 추론(Reasoning) 모드를 활성화했을 때 오히려 성능이 저하되었다는 것입니다.
인지(Perception)에 실패했을 때, 사고 사슬(Chain-of-thought, CoT)은 오히려 환각(Hallucination)을 증폭시켰습니다.
모델은 사실 글자를 인식하는 것이 아니라, 매체(Carrier)를 인식하고 있었습니다.
고문자 분류 정확도가 96.7%에 달하는 것은 거북이 등껍질이나 청동기 같은 용기를 보고 판단한 결과이지, 그 위의 문자를 이해한 것이 아니었습니다.
무형문화유산에 담긴 가치 중 AI가 정복한 것은 아주 미미한 수준에 불과합니다.
Holy shit! 이 오픈 소스(Open-source) Codex 실용 매뉴얼은 미친 듯이 멋집니다!
컴퓨터 사용(Computer use) 및 브라우저 작업을 수행하기 위해 Codex 데스크톱 앱을 막 시작한 많은 초보 사용자들이 로그인, 충전, 설정과 같은 기본적인 부분에서 즉시 막히곤 합니다.
질문하기
AI 자동 생성 콘텐츠
본 콘텐츠는 X @berryxia (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기