6일 만에 인용되기까지: 가짜 저자를 만들고 AI가 그를 믿기 시작하는 속도를 측정하다
요약
존재하지 않는 가상의 저자를 생성하여 LLM이 새로운 정보를 학습하고 인용하기까지 걸리는 속도를 측정한 실험 연구입니다. 실험 결과, Google Knowledge Graph 등록 4일 후인 6일째에 첫 번째 정확한 LLM 인용이 발생함을 확인했습니다.
핵심 포인트
- 가상 인물 생성 후 6일 만에 LLM의 정확한 인용 발생
- Google Knowledge Graph 등록(4일)과 LLM 인용(6일) 간의 상관관계
- 단순 언급 횟수가 아닌 환각(Hallucination)을 엄격히 구분하는 채점 방식 적용
- 데이터 수집 전 프로토콜을 사전 등록하여 연구 객관성 확보
Marin T. Kael 작성 — AI Citation Behaviour Lab 독립 연구원. 2026년 6월 5일 게시. 오픈 데이터, 코드, 그리고 전체 이중 언어 보고서는 끝에 링크되어 있습니다.
요약 (TL;DR)
2026년 5월 11일, 나는 존재하지 않는 인물을 만들었습니다. 가명으로 활동하는 판타지 작가 — 어떤 의미에서는 나 자신인 — 로, 검색 엔진이나 언어 모델(Language Model)이 이전에 본 적이 없는, 웹상의 흔적도 없고 출판된 책도 없는 인물입니다. 그런 다음 23일 동안 매일 5개의 웹 기반 대규모 언어 모델(LLM)을 그에게 향하게 했고, 모델들이 그를 정확히 인용하는지, 놓치는지, 아니면 환각(Hallucination)을 일으키는지에 대해 약 16,000개의 답변을 점수화했습니다.
핵심 수치: 첫 번째 정확한 LLM 인용은 6일째에 나타났습니다. 아무런 정보가 없는 상태(Cold start)에서 시작하여
대상은 "Marin T. Kael"로, 그의 데뷔 소설인 Das vierte Feld (시리즈: Prägungen des Reiches)가 2026년 9월 22일에 출간될 예정인 가명 저자입니다. 책은 실재하며 출간을 앞두고 있습니다. 다만 대중적 entity(개체)는 도구였을 뿐입니다. 솔직한 고백을 하자면 — 이 점을 계속 강조하겠습니다만 — 이것은 단일 대상 설계(single-subject design)입니다. n = 1입니다. 조사자가 곧 대상입니다. 이것이 들리는 것보다 왜 덜 치명적인지, 그리고 정확히 어떤 부분에서 주장의 한계를 갖는지에 대해서는 나중에 다시 다루겠습니다.
설계 (사전 등록되었으므로 목표 지점을 옮길 수 없었습니다)
저는 데이터를 수집하기 _전_에 프로토콜을 작성하고 타임스탬프를 찍었습니다. 이것은 보기보다 훨씬 중요합니다. 실험자이자 동시에 실험 대상인 경우, 동기화된 추론(motivated reasoning)과 당신 사이를 가로막는 유일한 것은 나중에 몰래 수정할 수 없는 사전 약속(pre-commitment)이기 때문입니다. 전체 실패 로그(failure log)가 공개된 이유도 이와 같습니다.
- Surfaces (접점): 5개의 웹 기반 LLM 엔드포인트 (endpoints).
- Instrument (도구): 6개 카테고리에 걸친 16개의 표준화된 질문 (직접적인 신원, 전기적 세부 사항, 작품/시리즈, 장르 발견, 추천, 그리고 모호성 해소 제어).
- Cadence (주기): 23일 동안 매일 조사.
- Volume (규모): 약 16,000개의 점수가 매겨진 데이터 포인트.
- Scoring (채점): 모든 답변에 대해 +1 (정확하고 출처에 근거함), 0 (개체를 찾을 수 없음), 또는 −1 (환각(hallucinated) — 확신에 찬 오답)을 부여함.
그 −1이 이 게임의 핵심입니다. 대부분의 "AI 가시성(AI visibility)" 도구들은 언급(mention) 횟수를 집계합니다. 하지만 당신의 전기를 지어내는 언급은 가시성이 아닙니다. 그것은 당신의 이름이 붙은 부채(liability)일 뿐입니다. 저는 진실에 보상하는 만큼 확신에 찬 허구에 엄격하게 벌을 주는 지표를 원했습니다. 제가 보기에 그 둘은 결코 대등하지 않기 때문입니다.
결과 1 — 속도: 6일
[IMG:1] 그림 1 — 23일의 기간 동안 각 접점별 일일 인용 점수; T+4(Google Knowledge Graph 등록)와 T+6(첫 번째 정확한 LLM 인용) 지점의 수직 마커.
Google Knowledge Graph는 **4일째(T+4)**에 그를 포착했습니다. 첫 번째로 정확하고 출처에 근거한 LLM 인용은 **6일째(T+6)**에 뒤따랐습니다.
"6일"이라는 말이 무엇을 의미하는지에 대해서는 주의를 기울이고 싶습니다. 과하게 해석하기 쉽기 때문입니다. 이것은 모든 모델이 6일 만에 그를 알게 되었다는 뜻이 아닙니다. 대부분은 결코 신뢰할 수 있는 수준으로 알지 못했습니다. 이것은 첫날부터 구조화된 정체성(structured-identity) 스캐폴딩(scaffolding)이 갖춰져 있을 때, 존재하지 않던 개체가 주요 웹 기반 LLM에서 정확하고 근거 있는 인용(citation)으로 이어지는 _가장 빠른 경로_가 개월 단위가 아닌 일(days) 단위로 측정된다는 것을 의미합니다. Knowledge Graph(지식 그래프)가 앞서 나갔고, LLM은 이틀 뒤에 뒤따랐습니다. 이 순서를 기억하십시오. 이는 반복됩니다.
발견 2 — 잠긴 문
이 결과는 저에게 연구 전체의 관점을 바꾸어 놓았습니다.
Cloudflare는 23일 중 22일 동안 모든 AI 크롤러(crawler)에 대해 HTTP 403을 반환했습니다. 제가 그렇게 설정했기 때문이 아닙니다. 그것이 현재 새로운 도메인에 적용되는 _조용한 옵트아웃(silent opt-out) 기본값_이기 때문입니다. 제 자신의 웹사이트 정문은 제가 도달하려고 했던 바로 그 봇들을 향해 굳게 잠겨 있었고, 저는 로그를 읽기 전까지 그 사실을 몰랐습니다.
그럼에도 불구하고 해당 개체는 AI에게 가시화(AI-visible)되었습니다.
[IMG:1] 그림 2 — 이중 경로 다이어그램: 사이트 내 크롤링 경로(차단됨, 23일 중 22일 동안 403 발생) 대 실제로 작동한 경로 — Knowledge Graph / Wikidata 및 제3자 언급에 대한 추론 시점 근거 설정(inference-time grounding).
크롤러가 그의 사이트를 읽을 수 없었다면
솔직한 한계점을 명확히 밝히자면: 크롤러가 내내 차단되었기 때문에, 이 연구는 llms.txt, 페이지 내 답변 블록(on-page answer-block) 포맷팅, 또는 기타 사이트 내 최적화가 효과가 있는지에 대해 그 어떤 것도 말할 수 없습니다. 저는 그것들을 테스트할 기회조차 얻지 못했습니다 — 문이 닫혀 있었으니까요. 만약 누군가 자신의 llms.txt 덕분에 AI 인용이 늘어났다고 말한다면, 크롤러가 실제로 그 문을 통과했는지 증명해 보라고 하세요. 제 경우는 통과하지 못했지만, 그럼에도 인용되었습니다.
발견 3 — 제공자 간극 (이는 능력의 사다리가 아니다)
이것은 제가 사람들이 가장 내재화하기를 바라는 발견입니다. 왜냐하면 이것이 기존의 편안한 정신적 모델(mental model)을 깨뜨리기 때문입니다.
직관적인 이야기는 사다리(ladder) 모델입니다. 즉, 더 똑똑하고 최신인 모델일수록 더 신뢰성 있게 인용하고, 성능이 낮은 모델은 덜 인용한다는 것입니다. 깔끔하죠. 하지만 틀렸습니다. 제가 측정한 것은 **간극(chasm)**입니다. 이는 기반 모델의 능력이 얼마나 뛰어난가가 아니라, _제공자(provider)가 어떤 소스로부터 정보를 검색(retrieve)하는가_를 따르는 불연속성입니다.
여기서 정밀도(Precision)란 = 7일 이동 창(rolling 7-day window) 동안의 '정확한 인용 대 환각(hallucinated) 인용 비율'을 의미합니다. 높을수록 좋으며, 1.0 미만은 모델이 정답을 맞히는 것보다 해당 엔티티(entity)에 대해 환각을 일으키는 경우가 더 많음을 의미합니다.
그림 3 — 표면(surface)별 정밀도 (정확함 : 환각), 7일 이동 창. 1.0의 점선 = 손익분기점.
| Surface | 정밀도 (정확함 : 환각) | 판독 결과 |
|---|---|---|
| OpenAI GPT-5.4 (web) | 4.7 : 1 | 신뢰할 수 있음 (reliable) |
| ... |
- Claude에 대해 한 마디 덧붙이자면, 제 측정 도구가 거의 틀릴 뻔했기 때문입니다. 자동 채점기는 처음에 Claude를 순부정적(net-negative) — 즉
그것이 바로 그 격차(chasm)에 대한 전체 이야기입니다. Gemini는 여기서 "추론 능력이 떨어지는" 것이 아니라, 다른 곳을 보고 있는 것입니다. 어떤 개체에 대한 유일한 창구가 Reddit 스레드뿐이라면, 그 개체에 대한 당신의 설명은 Reddit이 마침 뭐라고 말했느냐에 따라 결정됩니다. 이것이 Gemini의 정밀도가 수면 아래에 머무는 이유입니다. 동일한 개체, 동일한 질문, 동일한 주간. 하지만 다른 문을 통해 접근한 것입니다.
이미 잘못 인용되는 것을 보았기에 숫자 하나를 더 덧붙입니다. OpenAI-web 인용 _비율(rate)_은 약 10% 부근에서 정체되며, 최고치는 **16.3%**입니다. 18%가 아닙니다. 만약 이 연구의 결과가 18%라고 되어 있다면, 그것은 틀린 것입니다.
결과 4 — 깊이: 모델이 그를 찾아냈을 때, 정말 제대로 찾아낸다
OpenAI의 신뢰성의 이면은, 정보에 도달했을 때 그 설명이 얼마나 완전한가(complete) 하는 점입니다.
[IMG:1] 그림 4 — OpenAI의 올바른 답변을 주석 처리한 스크린샷; 가져온 소스 URL에 utm_source=openai가 포함되어 있어, 추론(inference) 시점에 실시간 검색(retrieval)이 이루어졌음을 확인시켜 줌.
OpenAI가 해당 개체를 찾아냈을 때, 모델은 단순히 그가 존재한다는 사실만을 확인하는 데 그치지 않았습니다. 시리즈 이름, 배경, 출시일, 그리고 심지어 가명 상태와 이 연구 프로젝트의 존재 여부까지 반환했습니다. 완전하며 소스에 근거(source-grounded)하고 있습니다. 또한 이것이 학습 데이터에서 회상(recalled)된 것이 아니라 실시간으로 가져온 것임을 증명할 수 있습니다. 모델이 가져온 소스 URL에는 utm_source=openai가 포함되어 있었는데, 이 태그는 모델이 쿼리 시점에 직접 페이지를 찾아갔기 때문에 존재하는 것입니다.
따라서 깊이의 한계치는 높습니다. 문제는 결코 "답변이 얕다"는 것이 아닙니다. 문제는 답변을 얻을 수 있느냐 없느냐 하는 것이며, 이것이 결과 6에 해당합니다.
결과 5 — 결정적 요인 (그리고 아무런 효과가 없었던 것)
저는 두 가지 개입(intervention)을 서로 대조하여 실행했고, 그 결과는 저의 사전 확률(priors)을 재배치했습니다.
구조화된 정체성(Structured identity)은 변화를 일으켰습니다. 사회적 도달 범위(Social reach)는 그렇지 않았습니다.
인용의 돌파구 — 즉, 정확한 인용이 실제로 나타나기 시작한 날 — 는 5월 17일이었습니다. 결정적으로, 이는 제가 본격적인 Reddit 커뮤니티 구축을 하기 _전_에 일어난 일이었습니다. 그 후 저는 사회적 측면을 구축했습니다: 카르마(karma)가 12에서 281로 23배 급증했습니다.
이 23배의 사회적 급증으로 인한 인용 상승은 **제로(zero)**였습니다.
그림 5 — 공유 축을 사용하는 두 개의 시계열: Reddit 카르마 (12 → 281) 대 정확한 인용률 (correct-citation rate). 인용의 급격한 변화(step-change)가 카르마의 상승보다 앞서 나타나며, 카르마의 상승은 그에 상응하는 인용 상승을 일으키지 못함.
이 부분을 주의 깊게 읽으십시오. 왜냐하면 이것이 여기서 가장 실행 가능한(actionable) 정보이기 때문입니다. AI 인용을 움직인 것은 지루한 인프라였습니다. 즉, 지식 그래프 (Knowledge Graph)에 공급되는 Wikidata 항목, 웹사이트, 그리고 DOI — 즉, 내구성이 있고 구조화되었으며 기계가 읽을 수 있는(machine-legible) 정체성이었습니다. AI 인용을 움직이지 않은 것은 바이럴(virality)이었습니다. 카르마는 상승했지만, 인용 곡선은 꿈쩍도 하지 않았습니다.
명확한 결론은 다음과 같습니다: 사회적 바이럴은 인간 독자를 확보하지만, 구조화된 정체성은 AI 인용을 확보합니다. 이들은 서로 분리된 채널이며, 하나를 최적화한다고 해서 다른 하나가 보조되지 않습니다. 만약 당신의 목표가 "모델에 의해 인용되는 것"이라면, 카르마는 허영 지표 (vanity metric)일 뿐입니다. 만약 당신의 목표가 "사람들에게 읽히는 것"이라면, 카르마는 허영 지표가 아닙니다. 다만 그것은 제가 측정하고 있던 질문과는 다른 질문에 답하고 있을 뿐입니다.
발견 6 — 이름이 불릴 때 인용되고, 발견될 때는 보이지 않음
마지막 발견은 승전보를 울리려는 누구라도 냉정해지게 만들 만한 내용입니다.
해당 엔티티(entity)는 당신이 그의 이름을 언급할 때는 인용 가능하지만, 언급하지 않을 때는 사실상 보이지 않습니다.
그림 6 — 질문 카테고리별 적중률 (Hit-rate): 직접적인 "...은 누구인가?" 질문 시 38.9% 대 장르/추천 질문 시 0%.
- 직접적인 정체성 확인 ("Marin T. Kael은 누구인가?") → 38.9% 적중률. 그의 이름을 언급하면 모델이 그를 알고 있을 실제 가능성이 있습니다.
- 유기적 발견 (Organic discovery) ("...하는 새로운 판타지 작가를 추천해줘", "... 스타일의 책들") → 0%. 그는 먼저 요청되지 않으면 결코 나타나지 않습니다.
- 유기적 검색 (Organic search): Google Search Console에 따르면, 해당 기간 동안 유기적 검색을 통한 클릭 0회 및 노출(impressions) 0회를 기록했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기