AI 텍스트 탐지기는 대부분 추측에 불과합니다: 실제 작동 원리

요약

AI 텍스트 탐지기가 작동하는 통계적 원리와 그 한계를 분석합니다. Perplexity, Burstiness 등 측정 지표가 실제 저자 식별이 아닌 예측 가능성을 측정하기 때문에 발생하는 오류와 편향성을 다룹니다.

핵심 포인트

탐지기는 Perplexity와 Burstiness 등 통계적 수치를 기반으로 추정함
명확하고 잘 구조화된 인간의 글이 오히려 AI로 오판될 가능성이 높음
비원어민 영어 사용자의 글을 AI로 잘못 분류하는 공정성 문제 존재
의역이나 가벼운 편집만으로도 탐지 성능이 쉽게 무력화됨

문서, 블로그 포스트, 혹은 커밋 메시지(commit messages)를 작성한다면, 당신이 직접 손으로 쓴 글을 "AI 탐지기(AI detector)"가 플래그(flag)를 지정했을 가능성이 꽤 높습니다. 이러한 도구들은 현재 표절 검사기, CMS, 그리고 채용 파이프라인(hiring pipelines)에 결합되어 있으며, 많은 사람들이 그 결과물을 확정적인 판결로 취급합니다. 하지만 그렇지 않습니다. 이것들이 실제로 무엇을 측정하는지, 그리고 왜 그 점수가 사실보다는 일기 예보에 더 가까운지 설명하겠습니다.

실제로 측정하는 것

어떤 탐지기도 의미를 파악하기 위해 텍스트를 "읽는" 것이 아닙니다. 이들은 표면적인 통계(surface statistics)를 바탕으로 특정 구절이 기계에 의해 생성되었을 확률을 추정합니다. 세 가지 접근 방식이 주를 이룹니다:

Perplexity (당혹도) — 언어 모델(language model)이 다음 단어에 대해 얼마나 "놀라는가"를 나타냅니다. 인간의 글쓰기는 특이한 방향으로 흐르는 경향이 있는 반면, LLM(대규모 언어 모델)의 출력은 구조적으로 대부분의 경우 확률이 높은 다음 토큰(token)을 선택합니다. 따라서 낮고 평탄한 Perplexity는 "아마도 AI"로 읽힙니다.

Burstiness (폭발성) — 문장의 길이와 복잡성이 얼마나 변하는지를 나타냅니다. 인간은 4단어짜리 문장과 40단어짜리 문장을 섞어서 사용합니다. 모델은 일정한 리듬을 갖는 경향이 있습니다. 낮은 분산(variance)은 "아마도 AI"로 이어집니다.

Trained classifiers (학습된 분류기) — 수많은 인간 및 기계 샘플을 보여주어 확률을 출력하도록 학습된 모델입니다. 이는 학습 데이터 분포(training distribution)만큼만 성능이 보장됩니다. 모델이 본 적 없는 도메인(domain)의 데이터를 입력하면 모델은 추측할 뿐입니다.

네 번째 아이디어인 **watermarking (워터마킹)**은 모델의 단어 선택에 패턴을 부여하여, 나중에 일치하는 탐지기가 이를 찾아낼 수 있도록 편향(bias)을 주는 방식입니다. 이론적으로는 가장 원칙적인 접근 방식이지만, 이는 제공자가 실제로 출력물에 워터마크를 삽입하고, 그 워터마크가 복사, 의역(paraphrasing), 또는 가벼운 편집 과정을 거치고도 살아남을 때만 작동합니다. 보통은 그렇지 않습니다.

점수가 신뢰할 수 없는 이유

위의 모든 방식이 저자(authorship)가 아닌 "예측 가능성(predictability)"을 측정하기 때문에, 실패 모드(failure modes)는 체계적으로 나타납니다:

인간이 쓴 깨끗한 글을 AI로 판정함. 우리가 사람들에게 쓰도록 가르치는 정확한 스타일 — 짧고, 명확하며, 잘 구조화된 글 — 은 낮은 당혹도(low-perplexity)를 가집니다. 문장이 훌륭할수록 탐지기에는 더 "로봇처럼" 보입니다.
비원어민 영어 사용자에 대한 편향성 기록됨. 널리 인용되는 2023년 스탠퍼드 대학교 연구(_Patterns_에 발표된 Liang et al.)에 따르면, 탐지기들은 비원어민 영어 사용자의 텍스트를 불균형적으로 플래그(flag) 처리하는 것으로 나타났습니다. 이들의 단순한 문구 표현은 낮은 당혹도(low perplexity)로 읽히기 때문입니다. 이는 단순한 반올림 오차가 아니라 공정성(fairness)의 문제입니다.
매우 쉽게 무력화됨. 몇 번의 의역(paraphrasing), 유의어 교체, 또는 적당한 편집만으로도 신호(signal)가 무너집니다. 따라서 이 도구는 정직하고 평이하게 글을 쓰는 사람들을 처벌하는 반면, 기계 출력물을 가볍게 편집한 사람은 그냥 통과시켜 줍니다.
OpenAI조차 포기함. OpenAI는 낮은 정확도를 이유로 2023년 7월 자체 AI 텍스트 분류기(AI Text Classifier)를 조용히 중단했습니다. 생성기를 출시하는 연구소조차 이를 안정적으로 탐지하지 못한다면, "99% 정확도"를 약속하는 제3자 도구는 경계 신호(alarm)를 울려야 마땅합니다.

대신 무엇을 해야 하는가

만약 탐지기 점수에 따라 조치를 취하는 서비스(중재, 채점, 채용 등)를 운영한다면, 그 숫자를 증거가 아닌 희미한 힌트로 취급하십시오:

단일 점수에 따라 자동으로 조치하지 마십시오. 학생을 비난하거나 지원자를 탈락시키는 오탐(false positive)은 실제적인 피해를 입힙니다.
확률이 아닌 과정과 맥락을 살펴보십시오 — 초안, 편집 이력, 작업물을 설명할 수 있는 능력 등을 확인해야 합니다.
탐지기를 사용하여 시스템을 구축한다면, 불확실성을 기록하고 드러내십시오. 이진적인 "AI / 인간" 구분이 아니라 신뢰 구간(confidence band)을 보여주어야 합니다.

솔직한 요약: AI 탐지기는 높은 오탐율(false-positive rates)과 평이한 글 및 비원어민의 글에 대한 내재된 편향성을 가진 확률적 패턴 매칭기(probabilistic pattern-matchers)입니다. 약한 사전 정보(weak prior)로서는 유용하지만, 판결(verdict)로 사용하기에는 위험합니다.

워터마킹(watermarking)이 어떻게 버티고 있는지와 실제 연구가 무엇을 말하는지를 포함하여, 출처를 모두 밝힌 더 긴 분석 글을 여기에 작성했습니다 — How do AI detectors work?

AI 자동 생성 콘텐츠

원문 바로가기

AI 텍스트 탐지기는 대부분 추측에 불과합니다: 실제 작동 원리

요약

핵심 포인트

실제로 측정하는 것

점수가 신뢰할 수 없는 이유

대신 무엇을 해야 하는가

댓글