arXiv논문2026. 06. 01. 11:31

TSM-Bench: 실제 Wikipedia 편집 관행에서의 LLM 생성 텍스트 탐지

요약

Wikipedia의 실제 편집 사례를 반영한 새로운 LLM 생성 텍스트 탐지 벤치마크인 TSM-Bench를 소개합니다. 기존 탐지기들이 특정 작업 중심의 기계 생성 텍스트를 식별하는 데 어려움을 겪으며 정확도가 크게 하락함을 입증했습니다.

핵심 포인트

실제 Wikipedia 편집 맥락을 반영한 TSM-Bench 제안
기존 탐지기들의 작업 특정적 MGT 탐지 정확도 10-40% 하락 확인
작업 특정적 데이터로 미세 조정 시 일반화가 가능한 비대칭성 발견
일반적 데이터로만 학습된 모델의 피상적 아티팩트 과적합 문제 지적

기계 생성 텍스트 (Machine-Generated Text, MGT)를 자동으로 탐지하는 것은 Wikipedia와 같은 사용자 생성 콘텐츠 (User-Generated Content, UGC) 플랫폼의 지식 무결성을 유지하는 데 매우 중요합니다. 기존의 탐지 벤치마크는 주로 extit{일반적인 (generic)} 텍스트 생성 작업(예: "머신러닝에 관한 기사를 작성해줘.")에 집중되어 있습니다. 그러나 편집자들은 특정 작성 작업(예: 요약)을 위해 LLM을 빈번하게 사용합니다. 이러한 extit{작업 특정적 (task-specific)} MGT 사례들은 제약된 작업 구성과 문맥적 조건화 (contextual conditioning)로 인해 인간이 작성한 텍스트와 더 유사한 경향이 있습니다. 본 연구에서 우리는 다양한 SOTA MGT 탐지기들이 Wikipedia의 실제 편집을 반영하는 작업 특정적 MGT를 식별하는 데 어려움을 겪는다는 것을 보여줍니다. 우리는 일반적이고 실제적인 Wikipedia 편집 작업에서 MGT 탐지기를 평가하기 위한 다국어, 다중 생성기 및 extit{다중 작업 (multi-task)} 벤치마크인 extsc{TSM-Bench}를 소개합니다. 우리의 연구 결과는 ( extit{i}) 평균 탐지 정확도가 이전 벤치마크에 비해 10--40% 하락하며, ( extit{ii}) 일반화 비대칭성 (generalisation asymmetry)이 존재함을 보여줍니다. 즉, 작업 특정적 데이터로 미세 조정 (fine-tuning)을 하면 도메인을 넘어 일반적인 데이터로의 일반화가 가능하지만, 그 반대는 불가능합니다. 우리는 일반적인 MGT로만 미세 조정된 모델들이 기계 생성의 피상적인 아티팩트 (artefacts)에 과적합 (overfit)된다는 것을 입증합니다. 우리의 결과는 이전 벤치마크들과 달리, 대부분의 탐지기가 UGC 플랫폼과 같은 실제 맥락에서의 자동 탐지에는 여전히 신뢰할 수 없음을 시사합니다. 따라서 extsc{TSM-Bench}는 향후 모델을 개발하고 평가하기 위한 중요한 토대를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

TSM-Bench: 실제 Wikipedia 편집 관행에서의 LLM 생성 텍스트 탐지

요약

핵심 포인트

댓글