Log-Likelihood, Simpson's Paradox, and the Detection of Machine-Generated Text

인간 작성 텍스트와 대형 언어 모델이 생성한 텍스트를 신뢰ably 구별하는 능력은 사회적으로 매우 중요합니다. 이 문제의 지배적인 접근법은 확률 가정을 활용합니다: 기계가 생성한 텍스트는 감지 언어 모델에 더 높은 확률을 가져야 한다는 것입니다. 그러나 우리는 토큰 수준에서 인간과 기계 텍스트를 구별하는 신호가 감지 모델의 히든 공간(hidden space) 전체에 걸쳐 균일하지 않음을 증명했습니다. 또한, 통계적 구조가 근본적으로 다른 영역을 가지는 경우 가장 일반적인 검출기가 수행하는 것처럼, 확률 기반 토큰 점수를 단순하게 평균화하면 시몬스 역설(Simpson's paradox)의 형태를 초래합니다: 강한 로컬 신호는 부적절한 집계(aggregation)에 의해 파괴됩니다. 이를 보정하기 위해 우리는 베이지안 결정 이론(bayesian decision theory)을 기반으로 학습된 로컬 칼리브레이션(calibration) 단계를 소개했습니다. 원시 토큰 점수를 집계하는 대신, 먼저 히든 공간의 위치에 조건부하게 점수 분포를 예측하는 경량 예측자(lightweight predictors)를 학습한 후, 칼리브레이션된 로그 확률 비율(log-likelihood ratios)을 집계합니다. 이 단일 개입은 우리가 고려하는 모든 기본 검출기(all baseline detectors)와 모든 데이터셋(all datasets)에 걸쳐 감지 성능을 극적으로 일관되게 개선했습니다. 예를 들어, 우리의 칼리브레이션된 Fast-DetectGPT는 GPT-5.4 텍스트에서 AUROC를 $0.63$에서 $0.85$로 향상시켰으며, 우리가 소개한 로컬 칼리브레이션된 DMAP 검출기는 전반적으로 최상위 성능(state-of-the-art performance)을 달성했습니다. 그럼에도 불구하고, 우리의 핵심 기여도는 새로운 검출기가 아니라 기존 검출기의 성능 저하의 중요한 원인을 정밀하게 진단하고, 임의의 토큰 평균화 파이프라인(token-averaging pipeline)과 호환되는 원칙적인(modular) 해결책을 제시한 것입니다. 이는 커뮤니티가 이를 기반으로 구축할 수 있는 기초를 제공하며, 자연스러운 방향으로는 더 풍부한 분포 모델(richer distributional models), 개선된 칼리브레이션 전략(improved calibration strategies), 그리고 전체 베이지안 최적 결정 규칙(bayes-optimal decision rule)을 통한 히든 공간 기하학 신호(hidden-space geometry signals)와 원칙적인 앙상블(principled ensembling)이 있습니다.

Insights

Log-Likelihood, Simpson's Paradox, and the Detection of Machine-Generated Text

요약

핵심 포인트

댓글

LLM 제공업체를 변경한 후에만 발생했던 버그

Nvidia의 Blackwell이 기밀 AI (Confidential AI)의 계산 방식을 바꾸는 이유

Amazon S3 Files: 작동 방식, 성능 경계 및 JuiceFS와의 비교

2026년 AI 보안의 현황: 모든 AI 네이티브 기업에 구조화된 보안 감사 (Security Audit)가 필요한 이유

LLM 제공업체를 변경한 후에만 발생했던 버그

Nvidia의 Blackwell이 기밀 AI (Confidential AI)의 계산 방식을 바꾸는 이유

Amazon S3 Files: 작동 방식, 성능 경계 및 JuiceFS와의 비교

2026년 AI 보안의 현황: 모든 AI 네이티브 기업에 구조화된 보안 감사 (Security Audit)가 필요한 이유