Reddit요약2026. 05. 24. 18:35

긴 문서(차트, 이미지, 표 등 포함) QA를 위한 시각 기능 LLM vs. OCR 비교

요약

이미지가 포함된 긴 PDF 문서 QA를 위해 시각 기능 LLM과 OCR 기반 파이프라인의 성능을 비교 분석했습니다. 실험 결과, 차트와 표가 많은 복잡한 레이아웃에서는 프리미엄 OCR이 시각 LLM보다 우수한 성능을 보였습니다.

핵심 포인트

차트와 표가 많은 페이지에서는 레이아웃 추출 기능이 포함된 OCR이 유리함
Native PDF 방식은 파일 크기 관련 전송 계층 문제로 고유 실패율이 발생함
OCR 기반 방식은 재시도 시 고유 실패율 0%를 기록하며 안정성을 보임
시각 LLM이 OCR을 완전히 대체하기에는 레이아웃 인식에 한계가 있음

저는 MMLongBench-Doc(https://github.com/mayubo2333/MMLongBench-Doc)에서 가져온 이미지가 많은 30개의 긴 PDF를 대상으로 시각 기능 LLM(Vision-capable LLMs, "PDF를 그냥 첨부하고 모델이 읽게 하는" 방식)과 OCR 기반 파이프라인을 벤치마킹했습니다. Claude Sonnet 4.5를 LLM으로 사용하여 총 171개의 질문을 활용했습니다.

재시도 후 결과:

방식	정확도	쿼리당 비용($)
LlamaCloud premium + full-context	59.6%	$0.1885
...

Native PDF 방식은 정확도 면에서 6개 중 5위를 기록했으며, 쿼리당 $0.2552로 가장 비용이 많이 드는 방식이었습니다.

두 가지 발견 사항:

시각 기능(Vision)은 차트와 표가 많은 페이지에서 성능이 저하되었는데, 이는 "시각 LLM이 OCR을 불필요하게 만든다"라는 주장이 가장 자주 언급되는 영역입니다. 레이아웃 추출(Layout extraction) 기능이 포함된 프리미엄 OCR이 해당 영역에서 더 잘 버텼습니다.
Native-PDF 방식은 재시도를 거친 후에도 (PDF 파일 크기와 관련된) 7%의 고유 실패율(intrinsic failure rate)이 발생했습니다. 총 27건의 1차 통과 실패가 있었으며, 실패한 쿼리당 지수 백오프(exponential backoff)를 5회 시도했습니다. 그중 15건은 복구되었으나, 12건은 영구적으로 실패 상태로 남았습니다. 이들은 예측 가능한 전송 계층(transport-layer) 문제로 인해 실패하는 특정 2개의 PDF에 집중되어 있었습니다(블로그에서 이를 식별함). OCR 기반 방식은 재시도 후 고유 실패율이 0%였습니다.

주의 사항: 30개의 문서는 적은 표본입니다. 저는 어떤 격차가 실제이고 어떤 것이 노이즈 범위 내에 있는지 결정하기 위해 McNemar의 쌍체 검정(McNemar's pairwise test)을 실행했습니다. 15개의 일대일 격차 중 $\alpha = 0.05$에서 통계적으로 구별 가능한 것은 3개뿐이었으므로, 표의 순서는 부분적으로 노이즈를 포함하고 있습니다. 다만, 시각 기능 대 OCR에 대한 발견 사항은 검정을 통과했습니다.

전체 글: https://www.surfsense.com/blog/agentic-rag-vs-long-context-llms-benchmark

AI 자동 생성 콘텐츠

원문 바로가기

긴 문서(차트, 이미지, 표 등 포함) QA를 위한 시각 기능 LLM vs. OCR 비교

요약

핵심 포인트

댓글