문서에서 개방형 도메인 이벤트 추출을 위한 멀티모달 텍스트 및 그래프 기반 접근 방식
요약
본 논문은 문서 내의 이벤트를 포괄적으로 추출하는 새로운 방법론인 MODEE를 제안합니다. 기존의 이벤트 추출 방식이 가진 한계점, 즉 특정 도메인에 국한되거나(closed-domain) LLM 활용 시 문서 구조적 맥락을 놓치는 문제를 해결하고자 합니다. MODEE는 그래프 기반 학습과 대규모 언어 모델(LLMs)의 텍스트 표현 능력을 결합하여 문서 전체 수준의 추론을 모델링합니다. 실험 결과, 이 방법은 기존 최신 기술 대비 우수한 성능을 보였으며, 폐쇄 도메인까지 일반화 가능함을 입증했습니다.
핵심 포인트
- MODEE는 그래프 기반 학습과 LLM 텍스트 표현을 결합하여 문서 수준의 추론 능력을 갖춘 멀티모달 이벤트 추출 모델입니다.
- 기존 방식은 도메인 제한적(closed-domain)이거나, LLM 사용 시 문서 구조 및 맥락 이해에 어려움이 있었습니다.
- MODEE는 오픈 도메인 환경에서 기존 SOTA 대비 우수한 성능을 보였으며, 폐쇄 도메인으로의 일반화도 성공적으로 수행했습니다.
문서에서 개방형 도메인 이벤트 추출을 위한 멀티모달 텍스트 및 그래프 기반 접근 방식
이벤트 추출(Event extraction)은 이벤트 이해 및 분석에 필수적입니다. 이는 문서 요약(document summarization)이나 비상 상황에서의 의사 결정과 같은 작업을 지원합니다. 하지만 기존의 이벤트 추출 접근 방식에는 한계가 있습니다. 첫째, 폐쇄형 도메인 알고리즘(closed-domain algorithms)은 미리 정의된 이벤트 유형에 국한되어 있어 보지 못한 유형으로 일반화되는 경우가 드물고, 둘째, 제약 없는 이벤트 유형 처리가 가능한 개방형 도메인 이벤트 추출 알고리즘(open-domain event extraction algorithms)은 뛰어난 능력을 지닌 대규모 언어 모델(LLMs)의 잠재력을 크게 간과해 왔습니다. 게다가 이들은 효과적인 이벤트 추출에 매우 중요한 문서 수준의 맥락적, 구조적, 의미론적 추론(document-level contextual, structural, and semantic reasoning)을 명시적으로 모델링하지 못하는데, 이는 LLMs에게 '중간에서 손실되는 현상(lost-in-the-middle phenomenon)'과 어텐션 희석(attention dilution) 때문에 여전히 어려운 과제로 남아 있습니다. 이러한 한계점들을 해결하기 위해, 우리는 그래프 기반 학습을 LLM의 텍스트 기반 표현과 결합하여 문서 수준 추론을 모델링하는 새로운 개방형 도메인 이벤트 추출 접근 방식인 멀티모달 개방형 도메인 이벤트 추출(MODEE: multimodal open-domain event extraction)을 제안합니다. 대규모 데이터셋에 대한 경험적 평가는 MODEE가 최신 개방형 도메인 이벤트 추출 접근 방식을 능가하며, 기존 알고리즘보다 성능이 우수한 폐쇄형 도메인 이벤트 추출에도 일반화될 수 있음을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기