문서 기반 이벤트 추출을 위한 대규모 오픈 도메인 데이터셋 EVENT5Ws 공개
요약
이 논문은 문서에서 이벤트를 자동으로 추출하는 것이 중요성을 강조하며, 기존의 폐쇄 영역(closed-domain) 중심의 한계를 극복하기 위해 'EVENT5Ws'라는 대규모 오픈 도메인 이벤트 추출 데이터셋을 제안합니다. EVENT5Ws는 수동으로 주석이 달리고 통계적으로 검증된 방식으로 구축되었으며, 최신 LLM들의 성능을 평가하는 벤치마크 역할을 합니다. 이 데이터셋은 다양한 지리적 맥락에서도 일반화 능력을 보여주어, 범용적인 이벤트 추출 알고리즘 개발에 큰 잠재력을 제공합니다.
핵심 포인트
- 이벤트 추출(Event Extraction)은 비상 상황에서의 의사결정 등 핵심 분석 작업에 필수적이므로 자동화 접근법 개발이 중요합니다.
- 기존 데이터셋의 한계점인 폐쇄 영역 중심 및 오픈 도메인 대규모 검증 데이터 부족 문제를 EVENT5Ws로 해결했습니다.
- EVENT5Ws는 체계적인 주석 파이프라인을 통해 구축되었으며, 최신 LLM들의 성능 평가 벤치마크를 제공합니다.
- 해당 데이터셋으로 학습된 모델은 다양한 지리적 맥락의 다른 데이터셋에도 효과적으로 일반화됨을 입증했습니다.
EVENT5Ws: A Large Dataset for Open-Domain Event Extraction from Documents
Event extraction identifies the central aspects of events from text. It supports event understanding and analysis, which is crucial for tasks such as informed decision-making in emergencies. Therefore, it is necessary to develop automated event extraction approaches.
However, existing datasets for algorithm development have limitations, including limited coverage of event types in closed-domain settings and a lack of large, manually verified dataset in open-domain settings. To address these limitations, we create EVENT5Ws , a large, manually annotated, and statistically verified open-domain event extraction dataset.
We design a systematic annotation pipeline to create the dataset and provide empirical insights into annotation complexity. Using EVENT5Ws, we evaluate state-of-the-art pre-trained large language models and establish a benchmark for future research. We further show that models trained on EVENT5Ws generalize effectively to datasets from different geographical contexts, which demonstrates its potential for developing generalizable algorithms.
Finally, we summarize the lessons learned during the dataset development and provide recommendations to support future large-scale dataset development.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기