긴 문서(차트, 이미지, 표 등 포함) QA를 위한 시각 기능 LLM vs. OCR 비교
요약
이미지가 포함된 긴 PDF 문서 QA를 위해 시각 기능 LLM과 OCR 기반 파이프라인의 성능을 비교 분석했습니다. 실험 결과, 차트와 표가 많은 복잡한 레이아웃에서는 프리미엄 OCR이 시각 LLM보다 우수한 성능을 보였습니다.
핵심 포인트
- 차트와 표가 많은 페이지에서는 레이아웃 추출 기능이 포함된 OCR이 유리함
- Native PDF 방식은 파일 크기 관련 전송 계층 문제로 고유 실패율이 발생함
- OCR 기반 방식은 재시도 시 고유 실패율 0%를 기록하며 안정성을 보임
- 시각 LLM이 OCR을 완전히 대체하기에는 레이아웃 인식에 한계가 있음
저는 MMLongBench-Doc(https://github.com/mayubo2333/MMLongBench-Doc)에서 가져온 이미지가 많은 30개의 긴 PDF를 대상으로 시각 기능 LLM(Vision-capable LLMs, "PDF를 그냥 첨부하고 모델이 읽게 하는" 방식)과 OCR 기반 파이프라인을 벤치마킹했습니다. Claude Sonnet 4.5를 LLM으로 사용하여 총 171개의 질문을 활용했습니다.
재시도 후 결과:
| 방식 | 정확도 | 쿼리당 비용($) |
|---|---|---|
| LlamaCloud premium + full-context | 59.6% | $0.1885 |
| ... |
Native PDF 방식은 정확도 면에서 6개 중 5위를 기록했으며, 쿼리당 $0.2552로 가장 비용이 많이 드는 방식이었습니다.
두 가지 발견 사항:
-
시각 기능(Vision)은 차트와 표가 많은 페이지에서 성능이 저하되었는데, 이는 "시각 LLM이 OCR을 불필요하게 만든다"라는 주장이 가장 자주 언급되는 영역입니다. 레이아웃 추출(Layout extraction) 기능이 포함된 프리미엄 OCR이 해당 영역에서 더 잘 버텼습니다.
-
Native-PDF 방식은 재시도를 거친 후에도 (PDF 파일 크기와 관련된) 7%의 고유 실패율(intrinsic failure rate)이 발생했습니다. 총 27건의 1차 통과 실패가 있었으며, 실패한 쿼리당 지수 백오프(exponential backoff)를 5회 시도했습니다. 그중 15건은 복구되었으나, 12건은 영구적으로 실패 상태로 남았습니다. 이들은 예측 가능한 전송 계층(transport-layer) 문제로 인해 실패하는 특정 2개의 PDF에 집중되어 있었습니다(블로그에서 이를 식별함). OCR 기반 방식은 재시도 후 고유 실패율이 0%였습니다.
주의 사항: 30개의 문서는 적은 표본입니다. 저는 어떤 격차가 실제이고 어떤 것이 노이즈 범위 내에 있는지 결정하기 위해 McNemar의 쌍체 검정(McNemar's pairwise test)을 실행했습니다. 15개의 일대일 격차 중 $\alpha = 0.05$에서 통계적으로 구별 가능한 것은 3개뿐이었으므로, 표의 순서는 부분적으로 노이즈를 포함하고 있습니다. 다만, 시각 기능 대 OCR에 대한 발견 사항은 검정을 통과했습니다.
전체 글: https://www.surfsense.com/blog/agentic-rag-vs-long-context-llms-benchmark
AI 자동 생성 콘텐츠
본 콘텐츠는 Reddit AI Research의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기