SURGE: 상호작용 구조를 포함한 이벤트 중심 소셜 미디어 감성 시계열 벤치마크
요약
SURGE는 소셜 미디어 이벤트의 시계열적 변화와 게시물 간의 상호작용 구조를 결합한 새로운 멀티 이벤트 벤치마크입니다. 5개 카테고리, 67개 이벤트, 80만 개 이상의 게시물을 포함하며, 텍스트와 구조적 데이터를 통해 집단적 역학을 예측하는 연구를 지원합니다. 실험 결과, 기존 모델들이 이벤트 중심 데이터의 국소 지속성과 높은 상호작용 밀도 구간에서 어려움을 겪음을 확인했습니다.
핵심 포인트
- 이벤트 수준의 시계열 데이터와 게시물 간 상호작용 구조를 결합한 멀티모달 벤치마크 제시
- 5개 카테고리, 67개 이벤트, 80만 개 이상의 게시물을 포함하는 대규모 데이터셋 구축
- 수치 전용, 텍스트 증강, 고상호작용 평가 및 카테고리 제외 일반화 등 다양한 평가 프로토콜 정의
- 기존 텍스트 증강 예측 모델의 이벤트 중심 데이터 전이 성능 한계 및 데이터 특성에 따른 난이도 분석
소셜 미디어상의 공개 이벤트는 방대한 양의 토론을 생성하며, 이러한 집단적 역학(collective dynamics)은 여론 예측 및 위기 대응에 직접적인 가치를 지닙니다. 이벤트의 생애 주기 전반에 걸쳐 이러한 역학이 어떻게 진화하는지 포착하려면 파편화된 게시물들을 이벤트 수준의 시계열(time series)로 조직화해야 합니다. 기존 데이터셋은 단일 카테고리 내의 소수 이벤트만을 다루며, 일반적으로 시계열을 구축할 때 게시물 간의 상호작용 구조(interaction structure)를 폐기합니다. 이는 이벤트 유형 간의 전이(transfer)와 상호작용이 결과적인 집단 역학을 어떻게 형성하는지에 대한 통제된 연구를 모두 제한합니다.
우리는 이벤트 수준의 시계열을 이벤트 내 게시물들을 연결하는 정렬된 텍스트 및 상호작용 구조와 결합한 멀티 이벤트 소셜 미디어 벤치마크인 SURGE를 제시합니다. SURGE는 자동화된 파이프라인을 통해 구축되었으며, 5개의 이벤트 카테고리에 걸쳐 67개의 이벤트와 80만 개 이상의 게시물을 포함하여 세 가지 시간적 입도(temporal granularities)로 달력에 정렬된 시계열을 생성합니다. 각 시간 빈(time bin)은 동일하게 선택된 게시물에서 파생된 평면적(flat) 및 구조적(structured) 텍스트 뷰와 쌍을 이루어, 사회적 상호작용 구조가 예측 동작에 영향을 미치는지에 대한 통제된 평가를 가능하게 합니다.
SURGE를 기반으로 우리는 수치 전용 예측(numerical-only forecasting), 텍스트 증강 예측(text-augmented forecasting), 고상호작용 평가(high-interaction evaluation), 그리고 카테고리 제외 일반화(leave-one-category-out generalization)를 위한 벤치마크 프로토콜을 정의합니다. 대표적인 시계열 및 멀티모달(multimodal) 예측 모델을 사용한 실험을 통해 이 벤치마크의 세 가지 특성을 밝혀냈습니다: 절대 오차(absolute error) 하에서 단순 베이스라인(naive baselines)을 이기기 어려운 강력한 국소 지속성(local-persistence) 체제, 기존 텍스트 증강 예측기를 이벤트 중심 소셜 미디어 데이터로 전이할 때의 제한된 성능, 그리고 집계 지표(aggregate metrics)가 가릴 수 있는 답글 밀집 기간(reply-dense periods)에서의 난이도 상승입니다. 나아가 우리는 참조 구현으로서 경량화된 구조 인식 프로브(structure-aware probe)를 포함하여, SURGE가 상호작용 인식 예측(interaction-aware forecasting) 연구를 어떻게 지원할 수 있는지 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기