ControBench: 소셜 네트워크의 논쟁적 담론 분석을 위한 상호작용 감지 벤치마크
요약
ControBench는 소셜 네트워크에서 발생하는 복잡한 논쟁적 담론을 분석하기 위해 설계된 새로운 벤치마크입니다. 이 데이터셋은 Reddit의 실제 토론 데이터를 기반으로 하며, 풍부한 텍스트 의미론과 상호작용 그래프 구조를 결합하여 기존 데이터셋의 한계를 극복했습니다. ControBench는 사용자-댓글-사용자 간의 지역적 논쟁 맥락을 보존하는 방식으로 설계되었으며, 이를 통해 GNN 및 LLM 같은 모델들이 실제 세계의 복잡한 온라인 토론 환경에서 어떻게 작동하는지 평가할 수 있게 합니다.
핵심 포인트
- ControBench는 텍스트 의미론과 상호작용 그래프 구조를 결합하여 논쟁적 담론 분석에 최적화된 벤치마크이다.
- 데이터셋은 Reddit의 실제 토론(Trump, 낙태, 종교)을 기반으로 하며, 사용자-댓글-사용자 간의 지역적 맥락을 보존하는 것이 특징이다.
- 사용자의 이념적 정체성은 Flair에서 파생된 라벨을 통해 제공되어 확장 가능한 대안(proxy) 역할을 한다.
- 이 벤치마크를 사용하여 GNN, 사전 학습 언어 모델, LLM 등의 성능을 평가했으며, 특히 이념적 경계가 모호한 상황에서 흥미로운 패턴을 발견했다.
온라인에서 이념적 구분을 넘어 사람들이 어떻게 논쟁하는지를 이해하는 것은 정치적 편향, 허위 정보, 그리고 콘텐츠 모던레이션 (콘텐츠 조절) 을 연구하는 데 중요합니다. 기존 데이터셋은 이 문제의 일부만 포착합니다: 일부는 텍스트를 보존하지만 상호작용 구조를 무시하고, 일부는 구조를 모델링하지만 풍부한 의미론 (semantics) 을 갖지 않으며, 다른 일부는 대화는 표현하지만 사용자 수준의 이념적 정체성은 안정되지 않습니다. 우리는 ControBench 를 소개합니다. 이는 이질적인 소셜 상호작용 그래프와 풍부한 텍스트 의미론을 결합한 논쟁적 담론 분석 벤치마크입니다. Reddit 의 토론에서 3 가지 주제 (Trump, abortion, religion) 에서 구축된 ControBench 는 7,370 명의 사용자, 1,783 개의 게시글, 그리고 26,525 개의 상호작용을 포함합니다. 그래프는 의미론적으로 풍부해진 엣지로 연결된 사용자 및 게시글 노드를 포함합니다; 특히, 사용자-댓글-사용자 엣지는 답변과 응답하는 부모 댓글을 모두 인코딩하여 지역 논쟁적 맥락을 보존합니다. 사용자 라벨은 Reddit flair 에서 파생되며, 수동 주석 (annotation) 없이 이념적 정체성의 확장 가능한 대안 (proxy) 을 제공합니다. 결과 데이터셋은 낮은 또는 음의 조정 동호성 (adjusted homophily) 을 보이며 (Trump: -0.77, Abortion: 0.06, Religion: 0.04), 이는 실제 세계 토론의 교차 구조를 반영합니다. 우리는 ControBench 에서 그래프 신경 네트워크 (GNN), 사전 학습 언어 모델, 그리고 대형 언어 모델을 평가하고 주제 및 모델 가족에 따라 다른 성능 패턴을 관찰했습니다. 특히 이념적 경계가 모호할 때입니다. 이러한 결과는 ControBench 를 논쟁적 담론 분석의 도전적이고 현실적인 벤치마크로 위치시킵니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기