시각 기능이 있는 LLM vs. OCR: 긴 문서(차트, 이미지, 표 포함) QA 비교
요약
이미지가 포함된 긴 PDF 문서를 대상으로 시각 기능 LLM과 OCR 기반 파이프라인의 성능을 비교 벤치마킹한 연구입니다. Claude Sonnet 4.5를 활용해 정확도와 비용을 분석한 결과, 차트와 표가 많은 문서에서는 레이아웃 추출 기능이 포함된 OCR이 더 우수함을 확인했습니다.
핵심 포인트
- 시각 LLM은 차트와 표가 많은 복잡한 레이아웃에서 성능 저하 발생
- 프리미엄 OCR 방식이 레이아웃 추출 측면에서 더 높은 안정성 제공
- Native PDF 방식은 파일 크기 및 전송 계층 문제로 인한 고유 실패율 존재
- McNemar 검정을 통해 시각 기능과 OCR 간의 성능 격차 통계적 유의성 확인
저는 MMLongBench-Doc (https://github.com/mayubo2333/MMLongBench-Doc)에서 가져온, 이미지가 많은 30개의 긴 PDF를 대상으로 시각 기능이 있는 LLM(Vision-capable LLMs, "그냥 PDF를 첨부하고 모델이 읽게 하는" 방식)과 OCR 기반 파이프라인을 벤치마킹했습니다. Claude Sonnet 4.5를 LLM으로 사용하여 총 171개의 질문을 테스트했습니다.
재시도 후 결과:
| 방식 | 정확도 | 쿼리당 비용 |
|---|---|---|
| LlamaCloud premium + full-context | 59.6% | $0.1885 |
| ... |
Native PDF 방식은 정확도 면에서 6개 중 5위를 기록했으며, 쿼리당 $0.2552로 가장 비용이 많이 드는 방식이었습니다.
두 가지 발견 사항:
-
시각 기능(Vision)은 차트와 표가 많은 페이지에서 성능이 저하되었는데, 이는 "시각 LLM이 OCR을 구식으로 만든다"라는 주장이 가장 자주 언급되는 영역입니다. 레이아웃 추출(Layout extraction) 기능이 포함된 프리미엄 OCR이 해당 영역에서 더 잘 버텼습니다.
-
Native-PDF 방식은 재시도를 거친 후에도 (PDF 파일 크기와 관련된) 7%의 고유 실패율(intrinsic failure rate)을 보였습니다. 총 27건의 1차 통과 실패가 있었으며, 실패한 쿼리당 지수 백오프(exponential backoff)를 5회 시도했습니다. 그중 15건은 복구되었으나, 12건은 영구적으로 실패 상태로 남았습니다. 이들은 예측 가능한 전송 계층(transport-layer) 문제로 인해 실패하는 특정 두 PDF에 집중되어 있었습니다(블로그에서 이를 식별함). OCR 기반 방식은 재시도 후 고유 실패율이 0%였습니다.
주의 사항: 30개의 문서는 적은 표본입니다. 저는 어떤 격차가 실제이고 어떤 것이 노이즈 범위 내에 있는지 결정하기 위해 McNemar의 쌍체 검정(McNemar's pairwise test)을 실행했습니다. 15개의 일대일 격차 중 $\alpha = 0.05$에서 통계적으로 구별 가능한 것은 3개뿐이므로, 표의 순서는 부분적으로 노이즈일 수 있습니다. 다만, 시각 기능 대 OCR에 대한 발견 사항은 검정을 통과했습니다.
전체 보고서: https://www.surfsense.com/blog/agentic-rag-vs-long-context-llms-benchmark
AI 자동 생성 콘텐츠
본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기