lcamtuf: Amazon의 복제된 150개 표지가 폭로하는 AI Slop

보안 연구가이자 온라인에서 lcamtuf로 알려진 Michał Zalewski는 2026년 6월 21일, AI 생성 콘텐츠가 인간의 것과 구별할 수 없다고 주장하는 사람들에게 불편한 글을 게시했습니다. 그의 증거는 논문이나 탐지기(detector)가 아닙니다. 그것은 Amazon에서 «100000 whys»를 검색했을 때 나타나는 약 150개의 아동용 도서 표지 콜라주입니다. 거의 모든 표지가 동일합니다.

이미 고유한 명칭이 붙은 이 현상 — AI Slop — 은 언어 모델(Language Model)이 어떻게 글을 쓰는지, 그리고 인간의 언어를 통계적으로 모델링한 모델임에도 불구하고 왜 인식 가능한 흔적을 남기는지에 대한 더 깊은 사실을 드러냅니다.

TL;DR

2026년 6월 21일, lcamtuf는 Amazon에서 «100000 whys»를 검색할 때 나타나는 거의 동일한 약 150개의 아동용 도서 표지를 보여주었습니다.
이 책들 중 여러 권은 아동 문학 카테고리의 베스트셀러이며 AI로 생성되었습니다.
핵심 패턴: 유사한 프롬프트(prompt)에 대해, LLM(대규모 언어 모델)은 약 80%의 확률로 기능적으로 동일한 출력을 생성합니다.
상단 행의 모든 표지는 왼쪽 상단 모서리에서 포효하는 공룡을 반복해서 보여줍니다.
반복되는 클러스터(cluster)가 존재합니다: 빨간색과 흰색 로켓, 골든 리트리버, 그리고 많은 표지에 다시 나타나는 사자가 있습니다.
논지: AI 텍스트는 인간과 다른 특이한 습관(tics) 때문이 아니라, 항상 동일한 습관의 레퍼토리를 사용하기 때문에 정체가 드러납니다.
«it's not this — it's that» («이것이 아니라 저것이다») 표현은 이러한 반복적이고 결정적인 습관 중 하나입니다.
제목은 이후 중국에서 대중화된 1929년 소련의 도서 «One Hundred Thousand Whys»를 언급합니다.

무슨 일이 일어났는가: 모두 똑같아 보이는 150개의 표지

이 논의는 많은 개발자가 회의나 소셜 미디어 스레드에서 들어본 주장으로 시작됩니다. 만약 언어 모델이 본질적으로 인간이 말하는 방식에 대한 통계적 모델이라면, 그 출력은 정의상 어떤 통계적 테스트 하에서도 인간의 언어와 구별할 수 없어야 한다는 것입니다. 이는 우아한 추론이며, 언뜻 보기에는 반박하기 어려워 보입니다.

lcamtuf는 방정식 대신 이미지를 통해 응답합니다. Amazon에서 «100000 whys»를 검색하면 약 150개의 아동용 교양 도서 표지가 나타납니다. 이들은 단순히 비슷하기만 한 것이 아닙니다. 구도, 색상 팔레트(palette), 심지어 그래픽 요소까지 공유하고 있습니다. 콜라주(collage)의 맨 윗줄 전체에는 왼쪽 상단 모서리에서 포효하는 공룡이 그려져 있습니다. 계속 살펴보면 다른 그룹들도 발견됩니다. 빨간색과 흰색의 만화 로켓, 골든 리트리버, 사자 등이 그것입니다. 이것은 우연도 아니고 저자들 사이의 표절도 아닙니다. 매번 똑같은 것을 만들어내는 도구의 흔적입니다.

당혹스러운 점은, 이 표지들 중 그 어떤 것도 개별적으로 보았을 때는 전혀 «비인간적»이지 않다는 것입니다. 어떤 것이든 존재할 수 있는 형태입니다. 문제는 150개를 함께 보았을 때 발생합니다. 그때 우리는 이것이 순수한 형태의 AI 슬롭 (AI Slop), 즉 오늘날 Amazon과 같은 상점의 비소설(non-fiction) 카테고리 전체를 채우고 있는 바로 그 종류의 콘텐츠라는 것을 명확히 알게 됩니다.
lcamtuf의 콜라주: 150개의 서로 다른 표지, 하지만 동일한 보이지 않는 템플릿.

AI가 왜 동일한 «슬롭 (slop)»을 생성하는가

기술적인 핵심은 lcamtuf가 이러한 도구들의 준결정론적 (quasi-deterministic) 특성이라고 부르는 것입니다. 만약 백 명의 «저자»가 자신이 선호하는 모델에 유사한 프롬프트 (prompt)를 입력한다면 — 예를 들어, «어린이를 위한 참고 도서를 생성해줘» — 모델은 약 80%의 확률로 기능적으로 동일한 출력을 생성합니다. 이는 모델이 복제를 하기 때문이 아니라, 유사한 입력과 보수적인 생성 파라미터 (parameters)가 주어졌을 때, 모델이 자신의 확률 공간 (probability space) 내에서 동일한 영역을 탐색하기 때문입니다.

개발자에게 이는 놀라운 일이 아닙니다. LLM은 프롬프트(prompt)를 다음 토큰(token)에 대한 확률 분포(probability distribution)로 변환한 다음, 해당 분포에서 샘플링(sampling)을 수행합니다. 주입되는 무작위성(randomness)의 양을 조절하는 파라미터(parameter)인 온도(temperature)를 낮추면, 출력값은 가장 확률이 높은 시퀀스(sequence)로 수렴합니다. 온도가 0이고 동일한 프롬프트가 주어졌을 때, 많은 모델은 정확히 동일한 결과물을 반환합니다. 온도가 중간 정도일지라도, 초기 결정 사항들(구조, 헤더, 도입부 공식 등)은 확률이 가장 높기 때문에 반복되는 경향이 있습니다.

graph LR
  A["유사한 프롬프트 (사용자 100명)"] --> B["저온 설정의 LLM"]
  B --> C["동일한 습관(mannerisms)의 레퍼토리"]
...

왼쪽 상단에 150마리의 공룡이 나타나게 만든 것과 동일한 원리가, 똑같이 시작하는 150개의 서론, 동일한 리듬으로 끝나는 150개의 결론, 그리고 동일한 불렛 포인트(bullet point) 구조를 가진 150개의 리스트를 만들어냅니다. 표지에서 나타나는 시각적 결정론은 산문(prose)에서도 발생하는 현상의 가장 보기 쉬운 버전일 뿐입니다.

💭 핵심: LLM의 서명(signature)은 인간이 절대 사용하지 않을 기이한 버릇(tic)에 있는 것이 아닙니다. 거의 모든 일반적인 프롬프트에 대해 동일한 복잡한 습관 세트에 의존한다는 점에 있습니다. 신호는 단어가 아니라 클러스터(cluster)입니다.

서명은 버릇이 아니라 레퍼토리이다

이 글의 가장 정교한 통찰이 여기에 있으며, 직관에 반하기 때문에 천천히 읽어볼 가치가 있습니다. LLM의 글쓰기가 독특한 이유는 그들의 버릇이 인간과 다르기 때문이 아닙니다. 인간 또한 긴 대시(dash), 대조(antithesis), 3개로 이루어진 목록, 그리고 "X가 아니라 Y이다"와 같은 유형의 문구를 사용합니다. 독특한 점은 모델이 거의 모든 요청에 대응하여 동일하고 광범위하며 인지 가능한 습관의 레퍼토리(repertory)를 끌어다 쓴다는 것입니다.

lcamtuf가 인용한 예시는 «it's not this — it's that» («이것은 ~이 아니라, 저것이다»)라는 문장 구조입니다. 인간은 대조가 필요할 때 가끔 이 표현을 사용합니다. 하지만 LLM은 이와 똑같이 발생할 확률이 높은 다른 20가지의 습관(manias)과 결합하여, 결과적으로 하나의 통계적 지문(statistical fingerprint)을 형성할 정도의 빈도로 이를 사용합니다. 개별적인 표식 하나하나가 아니라, 이러한 표식들의 집중과 공기(co-occurrence)가 정체를 드러내는 것입니다.

그렇기에 저자는 이것이 모호한 신호(diffuse signal)라고 경고합니다. 인턴이 이메일에 «이것은 ~이 아니라, 저것이다»라고 썼다고 해서 그를 해고해서는 안 된다는 뜻입니다. 하지만 저자는 더 비공식적인 맥락에서는 직관을 믿어도 좋다고 말합니다. 그리고 콘텐츠를 제작하는 비용이 그것과 상호작용하는 비용보다 훨씬 저렴해지면서, 이러한 직관은 점점 더 중요해지고 있습니다. 기존의 온라인 상호작용 모델이 무너지고 있기 때문입니다. Slop을 탐지한다는 것은 단 하나의 문장이 아니라, 전체 레퍼토리(repertory)를 읽어내는 것입니다.

실무에서의 탐지 방법

단일 규칙에 기반한 탐지기는 작동하지 않습니다. 왜냐하면 고립된 개별 습관은 완벽하게 인간적일 수 있기 때문입니다. 하지만 레퍼토리라는 개념은 다른 접근 방식을 제안합니다. 바로 전형적인 레퍼토리의 표식들이 얼마나 함께 나타나는지를 세는 것입니다. 이것은 법의학적 증거가 아니라 체온계와 같습니다. 여기 누구나 자신의 언어와 코퍼스(corpus)에 맞춰 조정할 수 있는, 최소한의 정직한 Python 탐지기 코드가 있습니다.

import re
import sys

...

실행하려면 표준 입력(standard input)으로 텍스트를 전달하기만 하면 됩니다. 운영 체제에 따라 구문이 약간 다릅니다:

# Linux
cat articulo.txt | python3 slop_detector.py

...

⚠️ 주의: 높은 점수는 의심의 근거일 뿐, 판결이 아닙니다. 동일한 표식을 사용하며 글을 쓰는 인간이 있으며, 모델 또한 요청을 받으면 이를 피할 수 있습니다. 이 도구는 수동 검토의 우선순위를 정하는 용도로만 사용해야 하며, 결코 사람을 비난하거나 사람에 대한 자동화된 결정을 내리는 용도로 사용해서는 안 됩니다.

영향 및 분석: LATAM에 미치는 의미

라틴 아메리카(LATAM)의 개발자 커뮤니티에게 AI Slop은 단순히 책 표지에 관한 추상적인 논쟁이 아닙니다. 이는 세 가지 매우 구체적인 측면을 건드립니다. 첫 번째는 기술 콘텐츠에 대한 신뢰입니다. 동일한 골격, 동일한 예시, 그리고 때로는 동일한 오류를 반복하며 대량으로 생성된 튜토리얼, 포럼 답변, 블로그 포스트들이 문제입니다. 백 개의 기사가 동일한 템플릿으로 똑같은 내용을 "설명"할 때, 원래의 검증된 출처를 찾는 것은 이전보다 더 비용이 많이 드는 일이 됩니다.

두 번째 측면은 주의력 경제(attention economy)입니다. lcamtuf는 게시물을 자동화하는 사람이라면 누구나 불편함을 느낄만한 문장으로 이를 요약합니다. 만약 당신이 블로그를 자동화하기 위해 LLM (대규모 언어 모델)을 사용한다면, 당신의 게시물은 "100,000 Whys"라고 재명명될 가능성이 높습니다. 기술이 나빠서가 아니라—기술은 놀랍습니다만—인간의 큐레이션(curation)이 없다면 군중 속에서 구별할 수 없는 상태로 수렴하기 때문입니다.

세 번째는 실무적이며 거의 문화적인 측면입니다. 스페인어에서는 사용하는 레퍼토리의 특징이 달라집니다. 긴 대시(em dash), 그대로 베껴온 영어식 표현(anglicismos), 대조법(antithesis), 그리고 맺음말의 공식들은 그들만의 지역적 버전을 가지고 있습니다. 스페인어로 작성된 Slop을 탐지하려는 사람은 자신만의 습관 사전(dictionary of manías)을 구축해야 합니다. 영어로 훈련된 탐지기들은 우리의 산문(prosa)에 대해서는 성능이 떨어지기 때문입니다. 이는 지역에서 만들어진 도구들에게는 하나의 기회입니다.

💡 팁: 만약 AI의 도움을 받아 게시물을 올린다면, 의도적으로 결정론(determinism)을 깨뜨리세요. 구조를 바꾸고, 모델이 알 수 없는 자신만의 예시를 추가하며, 검증된 출처를 인용하고, 도입부를 다시 쓰세요. 클러스터(cluster)에 대한 해독제는 오직 당신만이 제공할 수 있는 독창성(singularity)입니다.

다음 단계

lcamtuf 본인이 세 가지 관련 후기(postdata)를 추가했습니다. 첫 번째는, "100,000 whys"라는 제목이 아마도 1929년의 책인 "One Hundred Thousand Whys"에서 유래했을 가능성이 높다는 것입니다. 이 책은 서구권에서는 거의 알려져 있지 않지만, 기묘한 정치적 이유로 중국에서는 인기가 있습니다. 두 번째는, 생성된 책들의 내용이 표지만큼이나 매우 일반적(generic)이며, 예상 가능한 수준이라는 점입니다. 세 번째는, 이것이 단 하나의 제목에 국한된 문제가 아니라, 다른 검색어와 카테고리에서도 동일한 패턴이 반복된다는 것입니다.

합리적인 결론은 AI 탐지(AI detection) 문제가 해결되었다는 것도 아니고(그렇지 않습니다), 모든 자동화가 나쁘다는 것도 아닙니다. 모델의 결정론(determinism)이 집합적인 흔적을 남긴다는 것이며, 생산 비용이 주의 깊게 읽는 비용보다 낮은 한 이러한 흔적들은 계속해서 유용할 것이라는 점입니다. 플랫폼들이 슬롭(slop)을 필터링하려고 시도함에 따라, 서명(signature)을 숨기기 위해 프롬프트(prompt)와 모델을 다양화하는 이들과, 이를 탐지하기 위해 눈(eye)과—강박적 패턴 카운터(counters of manias)—를 정교하게 다듬는 이들 사이의 경주가 벌어질 것입니다.

📖 Telegram 요약: 요약 보기

자주 묻는 질문 (FAQ)

AI 슬롭(slop)이란 무엇인가요?

실질적인 인간의 큐레이션(curation) 없이 언어 모델이나 이미지 모델을 통해 대량으로 생성된 일반적인(generic) 콘텐츠를 말합니다. 서로 다른 많은 작업물이 동일한 구조, 동일한 상투적 표현(cliché)을 공유하며, 이미지의 경우 lcamtuf의 예시처럼 거의 동일한 150개의 표지 같은 동일한 그래픽 요소를 공유한다는 점에서 식별됩니다.

AI가 작성한 텍스트와 인간이 작성한 텍스트를 구분할 수 있나요?

단 하나의 문장만으로는 절대적인 확신을 가지고 구분할 수 없습니다. 왜냐하면 개별적인 강박적 패턴(mania)은 인간도 사용하기 때문입니다. 하지만 확률적으로는 가능합니다. 대규모 언어 모델(LLM)은 거의 모든 프롬프트에 대해 동일하고 광범위한 강박적 패턴 레퍼토리에 의존하며, 이러한 표식의 집중은 집합적으로 탐지 가능한 통계적 서명(statistical signature)을 형성합니다.

왜 모델들은 이토록 유사한 출력을 생성하나요?

그것들이 거의 결정론적(quasi-deterministic)이기 때문입니다. 유사한 프롬프트(prompts)와 보수적인 생성 파라미터(generation parameters)를 사용할 경우, 모델은 가장 확률이 높은 시퀀스를 선택하므로 약 80%의 확률로 기능적으로 동일한 출력을 생성합니다. 온도를 낮추면(Lowering the temperature) 이러한 수렴 현상은 더욱 심화됩니다.

자동 AI 탐지기가 유용할까요?

탐지기는 판결이 아닌 온도계로서의 역할을 합니다. 높은 점수는 수동 검토를 할 가치가 있음을 나타내지만, 오탐(false positives, 해당 스타일을 가진 인간)과 미탐(false negatives, 다양성을 요구받은 모델)이 존재합니다. 따라서 사람을 자동으로 처벌하는 용도로 사용해서는 안 됩니다.

AI의 도움을 받아 콘텐츠를 게시한다면 무엇을 할 수 있을까요?

결정론을 깨뜨리십시오: 자신만의 예시를 제공하고, 기본 구조를 변경하며, 검증 가능한 출처를 인용하고, 도입부와 결론을 다시 작성하며, 편집적 비판(editorial judgment)을 통해 전체 내용을 검토하십시오. 인간의 큐레이션(curation)이야말로 당신의 게시물이 클러스터(cluster)의 일부가 되는 것을 방지하는 바로 그 방법입니다.

참고 문헌

The 100,000 whys of AI — lcamtuf's thing — 콜라주와 레퍼토리(repertoire)에 대한 논지를 제시하는 원문 기사.
One Hundred Thousand Whys — Wikipedia — 반복되는 제목의 출처로 추정되는 1929년의 도서.
AI slop — Wikipedia — 대량 생성된 콘텐츠 현상에 대한 정의와 맥락.

📱 이 콘텐츠가 마음에 드시나요? 기술, AI, 개발 분야의 가장 중요한 소식을 매일 게시하는 저희 텔레그램 채널 @programacion에 참여하세요. 빠른 요약과 매일 새로운 콘텐츠를 제공합니다.