실제 문서 처리를 위한 LMM 벤치마킹: CC-OCR V2
요약
본 기사는 대규모 다중 모달 모델(LMMs)의 실제 문서 처리 능력을 검증하기 위해 개발된 새로운 종합 OCR 벤치마크, CC-OCR V2를 소개합니다. 기존 벤치마크가 실제 응용 환경을 반영하지 못하는 한계를 지적하며, CC-OCR V2는 문자 인식, 문서 파싱, 핵심 정보 추출 등 실무 중심의 5가지 트랙과 7,093개의 고난도 샘플로 구성되었습니다. 광범위한 실험 결과, 최신 LMM들조차 실제 기업 환경의 복잡하고 다양한 요구 사항을 충족하는 데 상당한 성능 저하를 보인다는 점을 밝혀냈습니다.
핵심 포인트
- LMMs가 OCR 분야에서 강력하지만, 기존 벤치마크는 실제 응용 환경을 반영하지 못하는 한계가 있다.
- CC-OCR V2는 실질적인 기업 문서 처리에 초점을 맞춘 종합적이고 도전적인 새로운 OCR 벤치마크이다.
- 이 벤치마크는 문자 인식, 문서 파싱, 핵심 정보 추출 등 5가지 주요 실무 트랙을 포함한다.
- 실험 결과, 최첨단 LMM들도 실제 복잡한 시나리오에서 성능 저하를 보이며, 현재의 벤치마크와 실제 응용 간에 큰 격차가 존재함을 입증했다.
최근 대규모 다중 모달 모델 (Large Multimodal Models, LMMs) 은 광학 문자 인식 (Optical Character Recognition, OCR) 작업에서 강력한 성능을 보이며 문서 문해력 (document literacy) 능력의 가능성을 입증했습니다. 그러나 기존 벤치마크는 실제 응용과 맞지 않은 작업 범위를 사용하고 균일한 획득 조건을 가정함으로써, 실제 응용에서의 효과성은 충분히 탐구되지 않았습니다. 이 격차를 해소하기 위해 우리는 실제 문서 처리에 맞춤화된 종합적이고 도전적인 OCR 벤치마크인 CC-OCR V2 를 소개합니다. CC-OCR V2 는 실용적인 기업 문서 처리 작업을 중점적으로 다루며, 기존 벤치마크에서 중요하지만 부족하게 표현된 난이도와 모서리 사례를 포함하여 5 개의 주요 OCR 중심 트랙을 커버합니다: 문자 인식 (text recognition), 문서 파싱 (document parsing), 문서 그라운드링 (document grounding), 핵심 정보 추출 (key information extraction), 및 문서 질문 답변 (document question answering). 총 7,093 개의 고난도 샘플로 구성되었습니다. 14 개의 고급 LMMs 에서 수행된 광범위한 실험은 현재 모델이 실제 응용 요구 사항을 충족하지 못함을 보여줍니다. 최첨단 LMMs 도 다양한 작업과 시나리오에서 상당한 성능 저하를 보입니다. 이러한 발견은 현재 벤치마크의 성능과 실제 응용의 효과성 사이의 큰 격차를 드러냅니다. 우리는 완전한 데이터셋과 평가 툴킷을 https://github.com/eioss/CC-OCR-V2 에서 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기