X요약2026. 05. 27. 22:11

Tencent의 새로운 벤치마크, Chronicles-OCR

요약

Tencent가 고문자 인식 능력을 테스트하는 새로운 벤치마크 Chronicles-OCR을 출시했습니다. 실험 결과, 최신 멀티모달 모델들은 갑골문 등 고문자 인식에서 매우 낮은 정확도를 보였으며, 추론 모드가 오히려 환각을 증폭시키는 현상이 발견되었습니다.

핵심 포인트

Tencent의 새로운 고문자 인식 벤치마크 Chronicles-OCR 출시
7대 고문자 분류를 포함한 전문가 라벨링 데이터 2,800장 활용
최신 VLLM 모델들이 고문자 인식에서 매우 낮은 성능 기록
추론(CoT) 활성화 시 인지 실패로 인한 환각 증폭 현상 확인
모델이 문자가 아닌 매체(용기)를 인식하는 한계 노출

Tencent(鹅厂)의 훌륭한 새로운 벤치마크(Benchmark)가 출시되었는데, 이름은 Chronicles-OCR입니다.

Tencent HY 연구소와 4개 기관이 공동으로 제작하였으며, AI의 3,000년 된 중국 고문자(Ancient Chinese Characters) 인식 능력을 전문적으로 테스트합니다.

전문가가 라벨링한 2,800장의 이미지는 갑골문(Oracle Bone Script), 금문(Bronze Inscriptions), 전서(Seal Script), 예서(Clerical Script), 해서(Regular Script), 행서(Running Script), 초서(Cursive Script)의 7대 분류를 포괄합니다.

결과는 28개의 최첨단 멀티모달(Multimodal) 모델이 모두 참패했습니다.

가장 강력한 VLLM(Vision-Language Large Model)조차 갑골문에서 단 14%의 정확도만을 기록했습니다.

엔드 투 엔드(End-to-end) 탐지의 H-mean은 최고 16.5%에 불과했습니다.

GPT-5와 Gemini 2.5 Pro는 거의 0에 수렴했습니다.

더욱 직관에 반하는 점은, 추론(Reasoning) 모드를 활성화했을 때 오히려 성능이 저하되었다는 것입니다.

인지(Perception)에 실패했을 때, 사고 사슬(Chain-of-thought, CoT)은 오히려 환각(Hallucination)을 증폭시켰습니다.

모델은 사실 글자를 인식하는 것이 아니라, 매체(Carrier)를 인식하고 있었습니다.

고문자 분류 정확도가 96.7%에 달하는 것은 거북이 등껍질이나 청동기 같은 용기를 보고 판단한 결과이지, 그 위의 문자를 이해한 것이 아니었습니다.

무형문화유산에 담긴 가치 중 AI가 정복한 것은 아주 미미한 수준에 불과합니다.

Holy shit! 이 오픈 소스(Open-source) Codex 실용 매뉴얼은 미친 듯이 멋집니다!

컴퓨터 사용(Computer use) 및 브라우저 작업을 수행하기 위해 Codex 데스크톱 앱을 막 시작한 많은 초보 사용자들이 로그인, 충전, 설정과 같은 기본적인 부분에서 즉시 막히곤 합니다.

질문하기

AI 자동 생성 콘텐츠

원문 바로가기

Tencent의 새로운 벤치마크, Chronicles-OCR

요약

핵심 포인트

댓글