문서 기반 이벤트 추출: 멀티모달 텍스트 및 그래프 학습 접근법
요약
본 논문은 문서 내의 이벤트를 포괄적으로 추출하는 새로운 방법론인 MODEE를 제안합니다. 기존의 이벤트 추출 방식이 가진 한계점, 즉 특정 도메인에 국한되거나(closed-domain) LLM 활용 시 문서 구조적 맥락을 놓치는 문제를 해결하고자 합니다. MODEE는 그래프 기반 학습과 대규모 언어 모델(LLMs)의 텍스트 표현 능력을 결합하여 문서 전체 수준의 추론을 모델링합니다. 실험 결과, 이 방법은 기존 최신 기술 대비 우수한 성능을 보였으며, 폐쇄 도메인까지 일반화 가능함을 입증했습니다.
핵심 포인트
- MODEE는 그래프 기반 학습과 LLM 텍스트 표현을 결합하여 문서 수준의 추론 능력을 갖춘 멀티모달 이벤트 추출 모델입니다.
- 기존 방식은 도메인 제한적(closed-domain)이거나, LLM 사용 시 문서 구조 및 맥락 이해에 어려움이 있었습니다.
- MODEE는 오픈 도메인 환경에서 기존 SOTA 대비 우수한 성능을 보였으며, 폐쇄 도메인으로의 일반화도 성공적으로 수행했습니다.
A Multimodal Text- and Graph-Based Approach for Open-Domain Event Extraction from Documents
Event extraction is essential for event understanding and analysis. It supports tasks such as document summarization and decision-making in emergency scenarios. However, existing event extraction approaches have limitations: (1) closed-domain algorithms are restricted to predefined event types and thus rarely generalize to unseen types and (2) open-domain event extraction algorithms, capable of handling unconstrained event types, have largely overlooked the potential of large language models (LLMs) despite their advanced abilities. Additionally, they do not explicitly model document-level contextual, structural, and semantic reasoning, which are crucial for effective event extraction but remain challenging for LLMs due to lost-in-the-middle phenomenon and attention dilution. To address these limitations, we propose multimodal open-domain event extraction, MODEE , a novel approach for open-domain event extraction that combines graph-based learning with text-based representation from LLMs to model document-level reasoning. Empirical evaluations on large datasets demonstrate that MODEE outperforms state-of-the-art open-domain event extraction approaches and can be generalized to closed-domain event extraction, where it outperforms existing algorithms.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기