arXiv논문2026. 06. 12. 19:01

레딧의 생명윤리 논쟁을 위한 맥락 인식 스탠스 탐지 데이터셋

요약

본 논문은 소셜 미디어 기반의 생명윤리적 토론을 모델링하기 위한 맥락 인식 스탠스 탐지 데이터셋 BioStance를 제시합니다. 이 데이터셋은 레딧에서 수집된 39,600개의 주석이 달린 게시물-댓글 쌍으로 구성되어 있으며, 가치 충돌 등 세 가지 차원의 논쟁적 주제를 다룹니다.

핵심 포인트

생명윤리 토론을 위한 대규모 도메인 특화 데이터셋 BioStance 제시
레딧의 게시물-댓글 쌍 39,600개로 구성되어 맥락 보존
찬성(Favor), 반대(Against), 중립(None)의 3가지 스탠스 체계 사용
평균 Krippendorff's $\alpha$ 값 0.82를 달성하여 높은 신뢰도 확보

생명윤리적 토론은 소셜 미디어에서 점점 더 많이 전개되고 있지만, 이러한 맥락 의존적인 담론을 모델링하기 위한 대규모의 도메인 특화 자원이 스탠스 탐지(stance detection) 연구에는 부족합니다. 본 논문에서는 레딧의 생명윤리적 토론에서 가져온 39,600개의 주석이 달린 게시물-댓글 쌍으로 구성된 맥락 인식 데이터셋 BioStance를 제시합니다. BioStance는 근본적인 가치 충돌, 개인의 자유 대 집단적 책임, 그리고 기술적 불확실성의 세 가지 차원에 걸쳐 여섯 개의 논쟁적인 주제를 다룹니다. 각 인스턴스는 계층적 대화 맥락을 보존하며, 세 명의 독립적인 주석자가 Favor(찬성), Against(반대), None(중립)의 3개 클래스 스탠스 체계를 사용하여 레이블링했습니다. 이 주석들은 평균 Krippendorff's $\alpha$ 값 0.82를 달성하여 상당한 신뢰도를 나타냅니다. BioStance는 주제적 다양성, 대화 구조, 그리고 고품질의 인간 주석을 결합함으로써 맥락 인식 스탠스 탐지, 논거 마이닝(argument mining), 생명윤리 담론의 계산 분석 연구를 지원합니다.

AI 자동 생성 콘텐츠

원문 바로가기