arXiv논문2026. 06. 23. 13:18

UnBias-Plus: 편향 탐지, 설명 및 재작성

요약

UnBias-Plus는 자연어의 편향을 탐지, 설명 및 재작성하는 오픈 소스 툴킷입니다. 세그먼트 단위의 분류, 편향 구간 식별, 중립적 재작성 및 추론 기능을 통합하여 제공합니다.

핵심 포인트

세그먼트 수준의 다중 클래스 편향 분류 지원
편향된 텍스트 구간의 정밀한 위치 식별
중립적인 텍스트로의 재작성 기능 제공
Python, CLI, API 및 웹 인터페이스 지원
소스 코드, 모델, 데이터셋의 완전 공개

자연어에서의 편향(Bias)은 인간이 작성한 콘텐츠와 AI가 생성한 콘텐츠 모두에서 지속적인 과제로 남아 있으며, 저널리즘, 교육, AI 연구와 같은 분야에 영향을 미칩니다. 기존의 대부분의 탐지 방법은 편향의 존재 여부만을 식별하며, 세밀한 탐지(granular detection), 해석 가능한 설명(interpretable explanations), 중립적인 재작성(neutral rewriting), 그리고 공개적으로 사용 가능한 학습된 모델에 대한 지원이 제한적입니다. 우리는 (1) 세그먼트 수준의 다중 클래스 편향 분류(multi-class bias classification), (2) 편향된 구간 위치 식별(biased span localization), (3) 중립적 텍스트 재작성(neutral text rewriting), 그리고 (4) 각 결정에 대한 추론(reasoning)을 통합하는 오픈 소스 툴킷인 UnBias-Plus를 제시합니다. Python, CLI, REST API 및 웹 인터페이스를 통해 제공되는 UnBias-Plus는 접근 가능한 편향 분석을 지원합니다. 이 툴킷, 소스 코드, 모델, 데이터셋 및 문서는 공개적으로 사용 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

UnBias-Plus: 편향 탐지, 설명 및 재작성

요약

핵심 포인트

댓글