AI 탐지에서 Perplexity와 Burstiness가 실제로 측정하는 것

AI 탐지기에 문단을 붙여넣습니다. 작은 스피너가 약 2초 동안 돌아가더니, 다음과 같은 판결이 나옵니다: "AI 생성 확률 98%."

그 블랙박스 내부에서는 실제로 어떤 일이 일어난 걸까요?

대부분의 사람들은 이러한 도구들이 순수한 지능을 통해 기계가 작성한 산문을 찾아내는 일종의 심오한 신경망 마법(deep neural wizardry)을 실행하고 있다고 생각합니다. 하지만 핵심적인 역할을 하는 두 가지 수치인 Perplexity(당혹도)와 Burstiness(변동성)는 전혀 신비로운 것이 아닙니다. 이들은 통계적 자연어 처리 (Statistical Natural Language Processing)에서 직접 빌려온 개념이며, ChatGPT가 인터넷을 합성 텍스트로 뒤덮을까 봐 걱정하기 훨씬 전부터 존재해 왔습니다.

저는 최근 몇 주 동안 연구 논문들을 파헤치고, 5가지의 서로 다른 탐지 API에 텍스트 샘플을 실행해 보며, 실제로 이러한 시스템을 구축하는 사람들과 대화를 나누었습니다. 그 결과는 제가 예상했던 것과 달랐습니다. AI 탐지가 어떻게 작동하는지에 대해 우리가 가정하는 많은 것들이 지나치게 단순화되어 있거나 아예 틀렸습니다. 제가 발견한 내용은 다음과 같습니다.

수치는 어디에서 오는가

Perplexity는 AI 탐지 지표로 시작된 것이 아닙니다. NLP 연구자들은 언어 모델 (Language Model)이 텍스트를 얼마나 잘 예측하는지 평가하기 위해 수십 년 동안 이를 사용해 왔습니다. 핵심 질문은 매우 단순합니다: 단어의 시퀀스가 주어졌을 때, 특정 모델이 다음 단어 각각에 대해 얼마나 놀랄 것인가?

제가 "The cat sat on the"라고 입력한다고 가정해 봅시다. 괜찮은 언어 모델은 다음 토큰 (Token)으로 "mat"에 매우 높은 확률을 부여할 것입니다. "floor"에는 중간 정도의 확률을 부여할 것입니다. "watermelon"에는 거의 0에 가까운 확률을 부여할 것입니다. 실제 이어지는 내용이 예상하기 어려울수록 Perplexity 점수는 더 높아집니다.

어느 시점에 연구자들은 하나의 패턴을 발견했습니다. 인간의 글쓰기는 기계가 생성한 텍스트보다 일관되게 더 높은 Perplexity (당혹도)를 생성한다는 점입니다. 이 이면의 논리는 너무나 명백합니다. 언어 모델 (Language models)은 가장 확률이 높은 다음 토큰 (token)을 예측하도록 훈련됩니다. 이들은 설계 단계부터 낮은 Perplexity를 목표로 최적화됩니다. 반면 인간은 확률 분포 (probability distributions)에 따라 생각하지 않습니다. 우리는 기묘한 도약을 합니다. 예상치 못한 방식으로 단어들을 조합합니다. 문장 중간에 주의가 산만해져 생각을 끝까지 마치지 못하기도 합니다.

Burstiness (폭발성)는 나중에 등장했습니다. 이는 문장 구조와 길이가 지문 전체에서 얼마나 다양하게 변하는지를 측정합니다. 인간의 글쓰기는 이리저리 튀는 경향이 있습니다. 종속절 (subordinate clauses)로 가득 찬 길고 구불구불한 문장 바로 옆에 단 두 단어로 된 파편이 놓일 수 있습니다. 그러다 마침표를 찍기 전까지 30단어 이상 이어지는 또 다른 방대한 문장이 나타나기도 합니다. 이것이 정상적인 인간의 리듬입니다. AI 텍스트, 특히 초기 모델의 경우 일정한 격조 (cadence)를 유지하는 경향이 있습니다. 문장들은 비슷한 길이를 맴돕니다. 단락들은 동일한 구조적 템플릿을 따릅니다. 그 리듬은 거의 지나칠 정도로 깔끔합니다.

따라서 이론은 다음과 같습니다. 높은 Perplexity와 높은 Burstiness의 결합은 인간을 의미합니다. 둘 다 낮으면 기계를 의미합니다. 실제로 테스트를 시작하기 전까지는 충분히 단순해 보입니다.

계산 방식은 보기보다 까다롭습니다

여기가 대부분의 설명 기사들이 생략하는 부분입니다. 서로 다른 탐지기 (detectors)들은 이 지표들을 각기 다른 방식으로 계산하며, 바로 이 때문에 동일한 텍스트라도 어떤 도구를 사용하느냐에 따라 판이하게 다른 점수가 나올 수 있습니다.

어떤 탐지기는 GPT-2를 기준으로 Perplexity를 측정합니다. 다른 것들은 자체적으로 미세 조정 (fine-tuned)된 모델을 사용합니다. 몇몇은 텍스트를 여러 참조 모델 (reference models)에 통과시킨 후 그 결과를 평균 냅니다. 기준점 (baseline)으로 어떤 특정 모델을 선택하느냐는 엄청나게 중요합니다. Perplexity는 항상 상대적이기 때문입니다. GPT-2에게는 "놀라운" 것으로 보이는 단락이 Claude에게는 완전히 평범하게 기록될 수 있습니다. 우주 어딘가에 발견되기를 기다리고 있는 절대적인 Perplexity 점수란 존재하지 않습니다. 그것은 언제나 비교의 산물입니다.

수학적 과정은 대략 다음과 같습니다. 먼저, 탐지기(detector)가 텍스트를 토큰화(tokenize)합니다. 그런 다음, 시퀀스의 각 위치에서 참조 모델(reference model)에게 다음과 같이 질문합니다: "이전의 모든 내용을 고려했을 때, 이 특정 토큰에 대해 당신은 얼마만큼의 확률을 할당했을 것입니까?" 모델은 모든 위치에 대해 교차 엔트로피 (cross-entropy)를 계산하고, 지수화 (exponentiate)를 거치면 Perplexity 수치가 도출됩니다.

Perplexity가 낮다는 것은 텍스트가 모델이 예측했을 내용과 밀접하게 일치함을 의미하며, 이는 기계 생성 (machine generation)임을 시사합니다. Perplexity가 높다는 것은 예측 불가능성이 더 높음을 의미하며, 이는 사람이 작성했음을 시사합니다.

하지만 충분히 논의되지 않는 문제가 여기에 있습니다. Perplexity는 콘텐츠에 깊이 의존적입니다. 기술 문서 (technical documentation), 법률 계약서 (legal contracts), 학술적 글쓰기 (academic writing)는 누가 또는 무엇이 작성했는지와 상관없이 창의적인 소설이나 일상적인 대화보다 자연스럽게 낮은 Perplexity 점수를 생성합니다. 사람이 초안을 작성한 서비스 이용 약관이 AI가 생성한 시보다 더 낮은 Perplexity를 기록할 수도 있습니다. 이 지표는 "예측 가능한 구조 (predictable structure)"를 "비인간적 기원 (non human origin)"과 혼동하며, 이 두 가지는 결코 같지 않습니다.

Burstiness 또한 유사한 사각지대를 가지고 있습니다. 당신이 기술 튜토리얼 (technical tutorial)을 작성한다고 가정해 봅시다. 개념을 설명하고, 코드 예시를 보여주고, 다음 개념을 설명합니다. 당신의 문장은 아마도 상당히 예측 가능한 리듬을 따를 것입니다. 그것이 튜토리얼을 읽기 쉽게 만들기 때문입니다. 이러한 구조화된 운율 (structured cadence)은 글이 전적으로 사람이 작성한 것이라 할지라도 낮은 Burstiness 플래그를 유발할 수 있습니다. 반면, "이 응답 전반에 걸쳐 문장 길이를 급격하게 변화시키시오"라고 명시적으로 프롬프트 (prompt)를 받은 AI 모델은 실제 인간의 개입 없이도 Burstiness 점수가 높게 나오는 텍스트를 생성할 수 있습니다.

이 지표들은 방향성 측면에서 작동합니다. 유용한 신호이기는 합니다. 하지만 이들을 결정적인 것으로 취급하는 것은 단 하나의 리뷰도 읽지 않고 Yelp 별점만으로 식당을 판단하는 것과 같습니다.

아무도 언급하지 않는 차원들

AI 탐지에 관한 대부분의 공개적인 논의는 당혹도 (Perplexity)와 돌발성 (Burstiness)에서 시작해서 그곳에서 끝납니다. 왜 그런지는 이해합니다. 이 두 지표는 OpenAI가 자신들의 탐지기를 짧게 공개했을 때 언급했던 지표들이며, 그 프레임이 그대로 굳어졌기 때문입니다.

하지만 연구 문헌들은 현대적인 탐지 시스템이 통합하여 사용하는 최소 6가지 이상의 다른 신호들을 가리키고 있으며, 더욱 정교한 플랫폼들은 이에 대해 점점 더 투명해지고 있습니다.

어휘 다양성 (Vocabulary diversity)은 매우 중요한 요소로, 일반적으로 유형-토큰 비율 (Type-token ratios)이나 단어의 일회성 (Hapax legomena) 횟수를 통해 측정됩니다. 이는 지문 내에서 정확히 한 번만 나타나는 단어가 몇 개인지를 추적합니다. AI 모델, 특히 보수적인 온도 (Temperature) 설정에서 작동하는 모델들은 인간 작가보다 어휘를 더 빈번하게 재사용하는 경향이 있습니다. "중요한 (important)"이라는 단어가 "결정적인 (crucial)", "중대한 (significant)", "필수적인 (essential)", "치명적인 (vital)" 등으로 교체되지 않고 한 단락 내에서 여섯 번이나 등장한다면, 대부분의 독자가 의식적으로는 알아차리지 못할 미묘한 경고 신호를 보내는 것입니다.

다음으로는 통사적 패턴 마커 (Syntactic pattern markers)가 있습니다. 특정 문장 구조는 AI가 생성한 텍스트에서 불균형적으로 많이 나타납니다. 이는 모델이 다양성을 생성할 수 없기 때문이 아니라, 모델의 학습 데이터 (Training data)가 특정 수사적 패턴에 크게 치우쳐 있기 때문입니다. 기업 블로그 게시물과 학술 논문이 학습 코퍼스 (Training corpora)를 지배하고 있으며, 이러한 장르들은 그들만의 문체적 지문 (Stylistic fingerprints)을 가지고 있습니다. "~뿐만 아니라 ~도 (not only, but also)" 구조가 전형적인 예시입니다. 이 구조는 즉흥적인 인간의 대화보다 격식을 갖춘 영어 문어체에서 훨씬 더 자주 나타나며, AI 모델은 이러한 분포를 흡수했습니다.

담화 수준의 일관성 (Discourse level coherence) 또한 주목받고 있는 또 다른 차원입니다. 인간은 문단 전반에 걸쳐 주제의 흐름을 유지하는데, 이는 공식화하기는 매우 어렵지만 훈련된 분류기 (classifier)가 이러한 흐름이 결여되었을 때 이를 감지하기는 상대적으로 쉽습니다. AI 텍스트는 국소적 수준 (local level)에서는 완벽하게 일관될 수 있습니다. 각 문장이 이전 문장으로부터 논리적으로 이어집니다. 하지만 지속적인 인간의 논증을 특징짓는 장거리 구조적 무결성 (long range structural integrity)은 종종 결여되어 있습니다. 텍스트가 표류합니다. 내용을 발전시키지 못한 채 동일한 지점들을 맴돕니다. 인간 작가가 거의 본능적으로 구축하는 논증적 곡선 (argumentative arc)이 부족합니다.

제 요점은 이 신호들 중 어느 하나가 결정적이라는 것이 아닙니다. 제 요점은 AI 탐지를 단 두 개의 숫자로 축소하는 것은 이 시스템들이 실제로 어떻게 작동하는지에 대한 흥미로운 요소들을 거의 모두 놓치게 만든다는 것입니다. 이는 마치 자동차의 성능을 평가할 때 토크 (torque), 무게 배분 (weight distribution), 공기 역학 (aerodynamics), 그리고 자동차가 실제로 어떻게 주행하는지를 결정하는 수십 가지의 다른 요소들은 무시한 채, 오직 마력 (horsepower)과 최고 속도 (top speed)만 보고 평가하는 것과 같습니다.

실무적인 측면: 왜 다시 쓰는 것이 버튼 하나로 해결되지 않는가

만약 탐지기가 특정 요소들을 측정한다면, 당연한 질문은 AI 출력물을 조정하여 해당 지표에서 더 높은 점수를 받을 수 있느냐는 것입니다. 짧은 답변은 '어느 정도는 그렇다'입니다. 더 긴 답변은 모든 조정이 다른 무언가를 망가뜨리는 경향이 있다는 것입니다.

특이한 단어 선택을 삽입하여 당혹도 (perplexity)를 높이는 것은 텍스트를 다른 방식으로 부자연스럽게 만듭니다. 제가 어떤 종류의 글을 말하는지 아실 겁니다. 세 번째 형용사마다 실제 대화에서는 한 번도 사용해 본 적 없는 사람이 유의어 사전 (thesaurus)에서 억지로 뽑아낸 것이 분명해 보이는 그런 글 말입니다. 어휘는 기술적으로 다양하지만, 그 효과는 자연스러움과는 정반대가 됩니다.

Burstiness (폭발성)를 높이기 위해 문장 길이를 수동으로 조절하는 것은 리듬감 있는 글이 아니라 뚝뚝 끊기는 느낌의 글을 만들어냅니다. 이는 실제 사례에서 꽤 쉽게 발견할 수 있습니다. 짧은 문장 하나. 그다음 또 다른 짧은 문장. 그러고 나서 짧은 문장들을 보상하려는 듯, 독자가 문장이 어디서 시작되었는지 잊어버릴 때까지 종속절(subordinate clause)을 계속해서 밀어 넣은 매우 긴 문장 하나. 이것은 인간의 문장 변주 방식이 아닙니다. 인간의 변주는 논리가 있습니다. 짧은 문장은 강렬한 지점을 찍어줍니다. 긴 문장은 추진력을 쌓아 올립니다. 리듬은 의미와 싸우는 것이 아니라 의미를 뒷받침합니다.

기저의 논리 구조를 조정하지 않은 채 어휘 다양성만 높이는 것은 어휘적으로는 다양하지만 지적으로는 평면적인 글을 만듭니다. 단어 몇 개를 바꿨을 뿐, 새로운 아이디어를 추가한 것은 아니기 때문입니다. 탐지기(detector)는 더 좋은 점수를 줄지 모르지만, 주의 깊은 독자라면 무언가 어색하다는 것을 눈치챌 것입니다.

이 분야의 더 뛰어난 도구들이 깨달은 점은, 효과적인 재작성(rewriting)에는 단일 차원의 Perplexity (당혹도) 상승이 아니라 여러 차원에 걸친 동시적인 조정이 필요하다는 것입니다. 문장 구조를 변화시키고, 단어 선택을 다양화하며, 논리적 수준에서 단락을 재구성하고, 적절한 감정적 톤을 주입하며, 언어 모델(language models)이 대충 넘어가기 쉬운 구체적이고 특정한 세부 사항들을 추가해야 합니다. 이 중 어느 것도 단일한 변환이 아닙니다. 이는 서로 다른 방향으로 끌어당기는 일련의 편집들이며, 서로 균형을 맞추어야 합니다.

문서 전체에 대한 단일 점수 대신 단락 수준의 분석을 제공하는 플랫폼들이 실제로는 실질적으로 훨씬 더 유용합니다. 실제 텍스트는 문제가 군집(cluster)되어 나타납니다. 서론은 완전히 인간이 쓴 것처럼 보일 수 있지만, 네 번째 단락이 시스템의 모든 경고 플래그를 트리거할 수 있습니다. 단일 통합 점수는 어딘가에 문제가 있다는 것만 알려줍니다. 반면 단락별 분석은 정확히 어디에 집중해야 하는지를 알려주며, 이는 위압적인 작업을 관리 가능한 수준으로 바꿔줍니다.

AI 텍스트와 함께 작업할 때의 의미

문서, 마케팅 문구, 또는 사용자에게 노출되는 그 어떤 것이든 AI 생성 콘텐츠를 포함하는 제품을 만드는 개발자라면, 몇 가지 유념해야 할 사항이 있습니다.

단일 지표(single metric) 탐지 점수를 신뢰하지 마세요. 무엇을 어떻게 측정했는지 설명하지 않은 채 퍼센트(%)와 초록색 또는 빨간색 불빛만 제공하는 도구는 당신에게 실제로 필요한 정보를 숨기고 있는 것입니다. 그들이 어떤 모델을 기준으로 측정하고 있는지 물으세요. Perplexity (당혹도) 외에 어떤 차원(dimensions)을 분석하는지 물으세요. 만약 그들이 이러한 질문에 답하지 못한다면, 당신은 아마도 때로는 AI 생성과 일치하고 때로는 일치하지 않는 표면적인 통계적 상관관계(statistical correlations)에 기반하여 결정을 내리는 블랙박스(black box)를 보고 있는 것입니다.

맥락(Context)은 그 어떤 개별 지표보다 중요합니다. 창의적인 에세이에서는 의심스러워 보이는 동일한 문단이 기술 사양서(technical specification)에서는 완전히 정상적일 수 있습니다. 인간의 글쓰기는 엄청나게 넓은 범위의 스타일을 포괄하며, 그 범위의 한 부분에만 맞춰 조정된 탐지기는 다른 부분에서 오작동할 것입니다. 이는 이론적인 우려가 아닙니다. 실제로 끊임없이 일어나고 있는 일이며, 탐지 결과에 무엇이 달려 있느냐에 따라 그 결과는 짜증 나는 수준에서 진정으로 해로운 수준까지 다양합니다.

만약 AI 생성 텍스트를 개선하려고 노력 중이라면, 이를 단 한 번의 변환(single pass transformation)이 아닌 다차원적인 편집 문제(multi dimensional editing problem)로 취급하세요. 바로 이 지점에서 탐지와 재작성(rewriting)을 결합한 도구들이 진정으로 유용해집니다. 기계가 쓴 글을 인간의 산문으로 바꿔주는 마법의 버튼으로서가 아닙니다. 그러한 프레임은 기술이 할 수 있는 것보다 과장하여 설명하며, 현재 어떤 도구도 충족할 수 없는 기대치를 설정하게 됩니다. 하지만 특정 문제를 식별하고, 이를 개별적으로 해결하며, 결과를 검증하는 반복적인 편집 워크플로(iterative editing workflow)로서 접근한다면, 이 방식은 효과적입니다.