시각적으로 풍부한 문서 유형 분류를 위한 멀티모달 접근 방식: 비교 분석
요약
시각적으로 풍부한 문서의 유형 분류를 위해 Transformer 및 LLM 기반 멀티모달 모델들을 체계적으로 비교 분석한 연구입니다. RVL-CDIP 벤치마크를 통해 OCR 의존 여부에 따른 성능 차이와 각 모달리티의 기여도를 검증했습니다.
핵심 포인트
- 특화된 멀티모달 Transformer가 LLM 기반 모델보다 우수한 성능을 보임
- 이미지 정보가 문서 분류에 가장 강력한 기여를 수행함
- OCR 텍스트는 유용하지만 분류 과정에서 부차적인 역할을 함
- 레이아웃 구조가 뚜렷한 문서에는 멀티모달 처리가 필수적임
시각적으로 풍부한 문서 (visually rich documents)에서의 문서 유형 분류 (Document type classification)는 관련 정보가 텍스트 (textual), 시각 (visual), 레이아웃 (layout) 모달리티 (modalities) 전반에 걸쳐 분산되어 있기 때문에 여전히 도전적인 과제로 남아 있습니다. 이러한 복잡성을 포착하기 위해 현재의 접근 방식들은 다양한 멀티모달 모델링 (multimodal modeling) 전략에 의존하고 있으며, 이는 체계적인 비교를 어렵게 만드는 이질적인 아키텍처 (heterogeneous architectures)를 초래합니다. 이러한 가변성은 기존의 비교 연구에도 반영되어 있으며, 기존 연구들은 종종 이질적인 평가 설정에 의존하여 체계적인 비교를 더욱 어렵게 만들고 발전 과정을 평가하는 것을 어렵게 합니다. 이러한 한계를 해결하기 위해, 본 연구는 Transformer 및 LLM 기반 아키텍처 전반에 걸친 멀티모달 설계 전략에 대한 구조화된 분석을 제공하며, 통일된 실험 프레임워크 내에서 통제된 실증적 비교를 결합합니다. 구체적으로, 네 가지 대표적인 모델 (LayoutLMv3, Donut, Qwen3-VL-32B-Instruct, 그리고 Qwen3-32B)을 RVL-CDIP 벤치마크에서 평가하여, OCR 의존적 (OCR-dependent) 접근 방식과 OCR 프리 (OCR-free) 접근 방식을 대조하는 데 특히 중점을 두어 문서 유형 분류를 위한 텍스트, 이미지, 레이아웃 정보의 기여도를 체계적으로 분석합니다. 결과에 따르면, 특화된 멀티모달 Transformer 모델이 시각적으로 풍부하고 레이아웃 집약적인 문서에서 LLM 기반 접근 방식보다 우수한 성능을 보입니다. 이미지 정보는 신뢰할 수 있는 분류에 가장 강력하게 기여하는 반면, OCR에서 추출된 텍스트는 유용하지만 부차적인 지원을 제공합니다. 이러한 발견은 레이아웃 구조가 뚜렷한 문서의 경우 멀티모달 처리 (multimodal processing)가 여전히 필수적임을 강조합니다. 전반적으로, 본 연구는 멀티모달 아키텍처를 비교하기 위한 체계적인 기반을 제공하며, 문서 유형 분류를 위한 효과적인 특징 조합 및 모델 설계를 선택하는 데 실질적인 지침을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기