댓글이 너무 훌륭해졌다. 그래서 나는 알아차렸다.

모델 증류 (Model Distillation)에 관한 글을 썼습니다. 댓글들은 사려 깊고, 구체적이며, 기술적으로 날카로웠습니다. 그리고 바로 그 점 때문에 나는 그 댓글들 중 어느 것이 사람에 의해 작성되었는지 확인해 보게 되었습니다.

🧪 여기 있는 모든 것 — 스크레이퍼 (Scraper), 탐지기 (Detector), 시뮬레이션 (Simulation), 도표 (Figures) — 은 재현 가능합니다: github.com/P0rt/the_cozy_web

몇 주 전, 나는 모델 증류 (Model Distillation)가 실제로 어떻게 작동하는지에 대한 포스트를 게시했습니다. 결과는 괜찮았습니다 — 반응 35개, 댓글 14개. 그리고 댓글들은 훌륭했습니다. 단순히 "좋은 글이네요, 공유해 주셔서 감사합니다" 수준의 훌륭함이 아니었습니다. 실질적으로 (Substantively) 훌륭했습니다. 사람들은 실제 반례를 들어 "학생 모델은 교사 모델에 의해 제한된다"라는 나의 주장에 반박했습니다. 누군가는 증류 (Distillation)를 "당신에게 실제로 필요한 것을 위한 강제 함수 (Forcing function)"로 재정의했습니다. 누군가는 논문을 추천했습니다. 누군가는 실제 운영 환경에서의 20배 비용 수치를 공유했습니다.

기분이 좋아야 마땅했습니다. 하지만 대신 나는 낯선 사람이 내 이름을 알고 있을 때 느끼는 것과 같은 기분을 느꼈습니다. 무언가 잘못되었고, 그것을 설명하는 데 하루가 걸렸습니다: 댓글들이 너무 잘 적응되어 있었습니다. 모든 댓글이 마치 똑같은 플레이북을 읽은 것처럼, 동일한 세 가지 행동을 동일한 순서로 수행하고 있었습니다. 그리고 의심스러울 정도로 많은 계정이 생성된 지 2주밖에 되지 않았거나, 제품 이름으로 되어 있거나, 혹은 둘 다였습니다.

그래서 나는 내가 늘 하던 대로 했습니다. 데이터를 추출했습니다. 이것이 내가 발견한 내용이며, 왜 나는 이제 개발 블로그의 "참여 (Engagement)" 중 상당 부분이 기계에 의해 생성되었거나 기계에 의해 형성되었다고 생각하는지, 그리고 — 나의 패턴 매칭 (Pattern-matching)을 신뢰할 수 없기에 — 이제는 그것을 구별할 수 있는지에 대해 실제 동료 검토 (Peer-reviewed) 연구가 무엇이라고 말하는지 설명하겠습니다.

"좋은 글입니다!"의 시대는 끝났다. 에코 댓글 (Eco-comment)을 만나보라.

과거의 봇 (Bot) 댓글은 쉬웠습니다. "멋진 기사네요, 매우 유익합니다, 다음 글도 기대할게요!" 누구나 그 냄새를 맡을 수 있었습니다. 누구라도 알 수 있었습니다.

이제 제 게시물 아래에 달리는 댓글은 더 이상 그렇지 않습니다. 새로운 댓글들은 실질적(substantive)이고 **생태적(ecological)**입니다. 즉, 실제 가치를 더하고, 예의 바르며, 결코 진짜 싸움을 걸지 않고, 스레드(thread)를 이전보다 더 아늑하게 느껴지도록 만듭니다. 제가 14개의 댓글을 연속해서 읽고 나서야 발견한 실제 골격은 다음과 같습니다:

게시물의 특정 문구를 확인(Validate)합니다. 일반적인 찬사가 아닙니다. 그들은 당신의 프레이밍(framing)을 그대로 인용하여 되돌려줍니다. "'엔지니어링을 지정학적 맥락과 분리하라'는 프레이밍이 여기서 제공하는 공공 서비스입니다."
진정한 뉘앙스를 하나 추가합니다. "한 가지 덧붙이자면..." "빌더(builders)들이 강조할 만한 부분은..." 종종 실제적이고 정확한 기술적 포인트가 포함됩니다.
제품명을 언급하며 숫자가 포함된 1인칭 복수형 일화를 던집니다. "저희는 [모델 X]를 데일리 드라이버(daily driver)로 사용하고 있으며, 비용 차이는 대략 20배입니다." "[저희의 GPU 제품]을 사용할 때, 저희는 ...를 확인했습니다."
절대로, 결코, 실제로 반대하지 않습니다. 심지어 "교정(corrections)"조차 너무나 부드럽게 표현되어 있어서, 저 — 즉 저자 — 조차 즉시 수긍하게 만듭니다.

하나를 읽으면 훌륭한 댓글입니다. 여덟 개를 읽으면 그것은 **템플릿(template)**입니다. 그리고 3단계가 결정적인 증거입니다. 기술적인 실체 자체가 핵심이 아닙니다. 그것은 제품 언급을 감싸는 *래퍼(wrapper)*이며, 스팸 필터와 AI 탐지기(AI detector)를 모두 통과할 수 있을 만큼 충분히 유용하도록 설계되었습니다.

수치로 본 제 자신의 스레드

저는 dev.to 공개 API에서 제 기사의 댓글을 직접 긁어모아(scraped) 두 가지를 통해 분석했습니다. 하나는 이전에 예전 방식의 "멋진 글이네요!" 스타일을 잡기 위해 구축했던 탐지기였고, 다른 하나는 새로운 구조적 신호(structural signals) 세트였습니다. (analyze_devto.py)

제 예전 탐지기는 어깨를 으쓱했습니다. 제가 작성하지 않은 8개의 댓글에 대해 탐지기는 평균 0.25의 "아늑함(coziness)" 점수를 부여했습니다. 즉, 탐지기는 이 댓글들을 인간이 작성한 것이라고 확신하며 통과시켰습니다. 당연한 결과였습니다. 그 탐지기는 상투적인 문구(clichés), 엠 대시(em-dashes), 그리고 균일한 긍정성을 잡아내도록 만들어졌는데, 이 댓글들은 바로 그 탐지기를 무력화시키는 요소인 '실제적인 구체성'으로 무장되어 있었기 때문입니다.

새로운 신호들은 다른 이야기를 들려주었습니다:

제품/회사 홍보: 4 / 8개 댓글
문구를 검증하며 시작함: 5 / 8개 댓글
진정으로 반박하는 댓글: 2 / 8개 댓글 (그리고 나는 두 댓글 모두 즉시 인정했다)
...

그다음 나는 누가 댓글을 달았는지 살펴보았습니다. 공개 프로필, 공개 가입일. 개인을 비난하기보다는 패턴을 설명하겠습니다만, 그 형태는 매우 명확했습니다:

말 그대로 제품 이름으로 된 계정 ("Sealed GPUs. Private AI.")가 해당 제품을 홍보하는 댓글을 다는 경우. 이것은 사람이 아니라 브랜딩 방송입니다.
생성된 지 2주 된 페르소나 계정 — 내 게시물이 올라오기 며칠 전에 생성됨 — 이 두 가지 특정 도구를 홍보하며, 어떻게 된 일인지 첫 2주 만에 5개의 기사를 게시한 경우.
무작위 16진수 사용자 이름을 가진 일회용 계정으로

소수의 계정들이 수십 개의 서로 관련 없는 게시물에 동일한 템플릿을 뿌리고 있습니다. 내 샘플에서 가장 활발하게 댓글을 단 이들은 각각 14~22개의 서로 다른 기사에 나타났습니다. 그들 중 몇몇은 내 스레드에 나타났던 것과 동일한 계정이었고, 몇몇은 제품 홍보(product plugs)로 신고된 계정들이었습니다. 당신의 요약(distillation) 포스트를 좋아한 실제 사람이라면 다른 포스트 3개 정도에 댓글을 달 수도 있습니다. 하지만 구조적으로 동일한 "확인(validate) → 뉘앙스(nuance) → 우리 제품(we-at-Product) → 숫자(number)" 형태의 댓글을 몇 주 만에 _14개_의 서로 다른 기사에 남기지는 않습니다.

서로 다른 "사람들"이 동일한 연결 문구(connective tissue)를 재사용합니다. 나는 서로 다른 계정들 사이에서 나타나는 4-gram(연속된 4개 단어 묶음)을 집계했습니다. 인간은 서로의 정확한 문구를 그대로 따라 하는 경우가 거의 없습니다. 하지만 이들은 그랬습니다:

13개의 서로 다른 계정: "exactly the kind of"
 8개의 서로 다른 계정: "is exactly the kind"
 7개의 서로 다른 계정: "this is exactly the"
...

"This is exactly the kind of thing that…(이것은 정확히 ~와 같은 종류의 것입니다...)"는 생성적(generative) 구조입니다. 이는 LLM(대규모 언어 모델)이 자신감 있게 들리는 부연 설명을 덧붙일 때 사용하는 방식입니다. 13명의 서로 다른 낯선 사람들이 독립적으로 이 문구에 수렴할 수는 없습니다. 13개의 가면 뒤에 있는 하나의 모델이라면 가능합니다.

전체 조사 결과, 11개의 계정은 긴 제품 홍보 문구를 남겼고, 32개는 문구 확인(phrase-validation)으로 시작했으며, 4개는 전체 골격(full skeleton)을 그대로 실행했습니다. 이것은 내 환상이 아니며, 단지 내 포스트만의 문제도 아닙니다. 이것은 현재 플랫폼의 전반적인 질감(ambient texture)입니다.

나는 이것을 잘못된 명칭으로 부르고 있었다

나는 "봇(bots)"이라고 생각하며 접근했습니다. 하지만 내가 실제로 마주한 것은 두 가지 오래된 개념이 융합된 것이었습니다.

데드 인터넷 이론 (Dead Internet Theory) — 웹이 "죽었으며" 이제는 대부분 봇과 생성된 텍스트가 자기들끼리 대화하고 있다는 반쯤 농담 같은 이야기가 — 더 이상 농담이 아니게 되었습니다. Hal Berghel은 IEEE Computer ("Generative AI Is Breathing New Life Into the Dead Internet Theory", 2026)에서 이 주장에 대한 진지한 버전을 제시합니다. 음모론을 걷어내고 남은 핵심적인 본질, 즉 합성 콘텐츠 (synthetic content)가 인간을 압도하고 인간으로 오인되는 현상은 그저 _측정 가능한 수치와 일치할 뿐_입니다. Imperva는 2024년 웹 트래픽의 51%가 자동화된 트래픽이었다고 기록했는데, 이는 봇이 절반을 넘어선 첫 사례입니다. Sam Altman조차 이를 공개적으로 언급했습니다: AI 활동의 물결이 데드 인터넷 이론을 실감 나게 만든다는 것입니다.

다른 절반은 **코지 웹 (Cozy Web)**입니다. Venkatesh Rao가 이 용어를 만들었으며, Maggie Appleton은 Yancey Strickler의 "다크 포레스트 (dark forest)" 개념과 함께 이를 도식화했습니다. 즉, 인간이 봇이 가득한 공공 광장을 떠나 그룹 채팅, Discord, DM과 같은 개인적인 공간으로 도망치는 현상을 말합니다. Appleton의 후속 연구인 "The Expanding Dark Forest and Generative AI"는 그 메커니즘을 정확히 짚어냅니다. 생성형 AI (generative AI)가 이러한 후퇴를 _가속화_한다는 것입니다.

제 자신의 댓글창을 보기 전까지 제가 놓쳤던 부분이 바로 여기입니다. 이것들은 두 개의 별개 이론이 아닙니다. 하나의 루프 (loop)입니다. 공공 웹이 마찰 없는 합성 텍스트로 가득 차면 → 실제 사람들은 개인적인 공간으로 후퇴하고 → 남겨진 공공 공간(제 포스트 아래의 댓글창)에는 실제 인간이 점점 줄어들며 → 이는 해당 공간을 합성 텍스트로 채우는 것을 더욱 쉽게 만듭니다. 저의 "코지(cozy)"한 스레드는 건강한 커뮤니티가 아니었습니다. 그것은 그 루프가 돌아가고 있는 고요한 표면이었을 뿐입니다.

그리고 봇(bots)들이 도착하기 전부터 댓글창은 이미 절반이 비어 있었습니다. 출판사들은 2010년대 내내 댓글 기능을 없애는 데 시간을 보냈습니다 — _Popular Science_는 2013년에 그러했고, 뉴스룸이 왜 댓글을 없앴는지에 대한 동료 검토(peer-reviewed) 조사에 따르면 대화는 이미 소셜 플랫폼으로 이동한 상태였습니다. 로봇들이 댓글창을 죽인 것이 아닙니다. 그들은 이미 대부분 비어 있는 집으로 이사 온 것뿐입니다.

이것이 실제로 작동하는 이유 (그리고 왜 내가 그냥 말할 수 없었는지)

이 부분이 저를 가장 불안하게 만들었습니다. 왜냐하면 저는 이런 것들을 포착하는 것에 자부심을 느끼는데, 연구 결과에 따르면 저는 그것을 단 일 초도 믿어서는 안 된다고 하기 때문입니다.

인간은 LLM(대규모 언어 모델)의 사회적 텍스트를 인간의 텍스트와 구별할 수 없습니다. Spitale, Biller-Andorno & Germani는 Science Advances (2023년)에서 사람들이 GPT의 트윗과 인간의 트윗을 구별하지 못하며, 심지어 AI의 정보를 더 신뢰할 만하다고 평가한다는 것을 보여주었습니다. Jones & Bergen은 GPT-4가 통제된 튜링 테스트(Turing test)를 통과한다는 것을 발견했습니다 (54%의 확률로 인간으로 간주됨, FAccT 2025).

개인화될 때 그 설득력은 초인적입니다. Salvi, Ribeiro, Gallotti & West는 Nature Human Behaviour (2025년)에서 대화 상대가 누구인지에 대한 약간의 데이터만 있다면, GPT-4가 토론에서 승리할 확률이 인간보다 81% 더 높다고 밝혔습니다. 취리히의 r/changemyview 현장 실험에서는 AI의 답변이 인간보다 3~6배 더 설득력이 있다는 결과가 보고되었습니다. 다만 솔직히 말씀드리자면, 해당 연구는 철회되었으며 동료 검토(peer-review)를 거치지 않았음을 명시합니다. 공식적으로 기록된 유일한 설명은 해당 대학의 윤리 위원회 답변뿐입니다. 이를 결과가 아닌 철회된 프리프린트(preprint)로 인용하십시오.

가짜이지만 실질적인 내용을 담은 콘텐츠는 이제 사람들에게 탐지되지 않습니다. 이것이 제 에코-댓글(eco-comments) 이론과 가장 맞닿아 있는 문헌입니다. 고전적인 Ott et al. (ACL 2011) 연구는 이미 인간이 가짜 리뷰를 찍기(chance) 수준으로 판별한다는 것을 보여주었습니다. LLM 시대의 업데이트 버전인 Meng et al., "Fake Product Reviews are Indistinguishable to Humans and Machines" (2025) 연구에 따르면, 사람들의 판별율은 50.8%(동전 던지기 수준)였으며 탐지기(detectors) 또한 이보다 나을 것이 없었습니다. 진지한 기술적 댓글의 탈을 쓴 홍보성 문구는 새로운 장소에서 정확히 그러한 양상을 보입니다.

그리고 탐지기들이 실패하는 이유는 바로 그 구체성 때문입니다. 제 탐지기도 이 댓글들을 통과시켰는데, 이는 제 코드의 버그가 아니라 이 분야의 현상입니다. Krishna et al. (NeurIPS 2023)은 가벼운 패러프레이징(light paraphrasing)이 DetectGPT의 성능을 70.3%에서 4.6%로 무너뜨리며, GPTZero, OpenAI의 분류기(classifier), 그리고 워터마크(watermarks)를 무력화한다는 것을 보여주었습니다. Liang et al. (Patterns 2023)은 탐지기들이 영어가 모국어가 아닌 작성자에게 편향되어 있으며, 프롬프팅(prompting)을 통해 우회 가능하다는 것을 보여주었습니다. 이 댓글들을 인간처럼 느껴지게 만든 '실제적인 기술적 세부 사항'은 탐지기를 눈멀게 만드는 동일한 메커니즘입니다. 구체성은 인간이라는 증거가 아닙니다. 그것은 위장(camouflage)입니다.

따라서 정직한 입장은 "내가 봇을 잡아냈다"가 아니라, **"내가 확신할 수 있게 해줄 도구들이 작동하지 않으며, 연구 결과에 따르면 앞으로도 그럴 것이다"**입니다.

나는 이것이 스레드에 미치는 영향을 모델링했다

개별 댓글을 안정적으로 잡아낼 수 없다면, 적어도 통계적으로 자동화의 증가가 대화에 어떤 영향을 미치는지 물을 수는 있습니다. 그래서 저는 장난감 모델을 만들었습니다. (dead_internet_sim.py)

나는 언어를 시뮬레이션한 것이 아니라, 언어의 통계 (statistics)를 시뮬레이션했습니다. 왜냐하면 나의 논문은 통계적이기 때문입니다. 각 댓글은 두 개의 풀 (pool)에서 가져온 토큰들의 가방 (bag of tokens)입니다. 하나는 오타, 탈선, 특유의 경험담이 담긴 크고 꼬리가 두꺼운 (fat-tailed) 인간 (human) 어휘 집합이고, 다른 하나는 의례적인 찬사가 담긴 아주 작은 코지 (cozy) 어휘 집합입니다. 각 댓글은 0(내가 짜증 내며 직접 타이핑함)에서 1(에이전트 (agent)가 나를 대신해 게시하며, 나는 스레드 (thread)를 전혀 읽지 않음) 사이의 지원 수준 (assist level) α 값을 가집니다. α가 상승함에 따라 더 많은 토큰이 코지 풀 (cozy pool)에서 유입되며, 댓글의 입장 (stance)은 "반대"에서 "찬성" 쪽으로 끌려가게 됩니다.