arXiv논문2026. 06. 29. 11:13

ToxiREX: 문맥 내 독성 추론 (Toxic REasoning in ConteXt) 데이터셋

요약

ToxiREX는 Reddit 댓글 스레드를 기반으로 암시적이고 문맥 의존적인 독성을 포착하기 위해 설계된 다국어 데이터셋입니다. 6개 언어를 지원하며, 체계적인 독성 추론 스키마를 통해 구조화된 특징 기술을 제공합니다.

핵심 포인트

문맥과 함의를 고려한 다국어 독성 추론 데이터셋
6개 언어(영어, 아랍어, 터키어 등) 및 Reddit 스레드 기반
LLM 주석 학습 세트와 원어민 주석 테스트 세트 구성
암시적 독성 포착을 위한 계층적 스키마 기반 평가 전략 개발

우리는 ToxiREX: Toxic REasoning in ConteXt라고 불리는 새로운 문맥적, 다국어 데이터셋을 소개합니다. 이 데이터셋은 Reddit 댓글 스레드와 이전 논문에서 개발된 체계적인 독성 추론 스키마 (toxic reasoning schema)를 따라 해당 댓글이 함의하는 바에 대한 구조화된 특징 기술로 구성됩니다. 이 스키마를 사용하면 기존의 독성 분류 체계 (toxicity taxonomies)로의 매핑을 지원하는 동시에, 암시적이고 문맥 의존적인 독성 (implicit and context-dependent toxicity)을 포착하고 설명할 수 있습니다. 이 데이터셋은 특정 주요 사건(예: 2023년 튀르키예 지진, 러시아의 우크라이나 침공)과 관련된 게시물에서 수집된 6개 언어(영어, 아랍어, 터키어, 스페인어, 독일어, 네덜란드어)의 댓글을 포함합니다. 우리는 스레드의 문맥을 보존하는 전처리 과정을 설명합니다. 우리는 상용 LLM (Large Language Model)에 의해 주석이 달린 12만 5천 개의 댓글로 구성된 학습 세트와, 원어민에 의해 주석이 달린 3천 개 미만의 댓글로 구성된 테스트 세트를 생성합니다. 우리는 테스트 세트의 주석에서 나타나는 명백한 불일치가 노이즈라기보다는 방어 가능한 대안적 해석을 반영하는 경우가 많음을 보여줍니다. 마지막으로, 언어 모델 (language models)을 프롬프팅 (prompting)하고 미세 조정 (fine-tuning)하여 베이스라인 결과를 제공합니다. 이러한 결과를 도출하기 위해, 우리는 계층적이고 스키마 기반인 예측을 위한 평가 전략을 개발합니다. 모델들이 무작위(random)보다는 나은 성능을 보이지만, 여전히 개선의 여지가 많이 남아 있어 이 작업이 도전적임을 보여줍니다. ToxiREX는 풍부하고 구조화된 주석을 위해 독성 추론 스키마를 사용하면서, 다국어, 대화 문맥, 그리고 암시적 독성을 동시에 통합한 최초의 데이터셋입니다. 데이터셋은 다음에서 확인할 수 있습니다: https://github.com/cltl/toxirex

AI 자동 생성 콘텐츠

원문 바로가기