ChatGPT가 당신의 브랜드를 인식하지 못하게 막는 Cloudflare 토글 설정

Brandswarm 블로그에 처음 게시되었습니다.

우리는 Brandswarm을 만듭니다. 이는 ChatGPT, Claude, Perplexity, Gemini, AI Overviews와 같은 AI 어시스턴트들이 당신의 브랜드를 어떻게 설명하는지 추적하는 SaaS (Software as a Service)입니다. 이 제품은 마케팅 팀이 AI 검색 엔진에 노출되기를 원할 때 찾아오는 표준적인 장소가 되어야 합니다.

한 시간 전, 저희는 자체 설정을 감사하던 중 우리 자신도 ChatGPT에게 보이지 않는다는 사실을 발견했습니다. 우리의 CDN (Content Delivery Network)인 Cloudflare가 GPTBot, ClaudeBot, Google-Extended, PerplexityBot, Bytespider 및 기타 7개의 봇이 우리 사이트를 크롤링(Crawling)하는 것을 조용히 차단하고 있었습니다. 이를 수행하는 제어 장치는 대부분의 사용자가 한 번도 열어본 적 없는 대시보드 내의 단일 토글(Toggle)이었습니다.

우리는 그 토글을 껐고, 우리의 robots.txt는 70줄(대부분 AI 크롤러에 대한 Disallow: / 설정)에서 15줄로 줄어들었습니다. 이제 AI 엔진들은 우리가 회사를 세운 목적 그 자체인 일을 수행할 수 있게 되었습니다.

우리가 단순히 조용히 문제를 해결하고 넘어가는 대신 이 글을 쓰는 이유는, 이것이 우리만의 고립된 사례가 아니라고 생각하기 때문입니다. Cloudflare는 웹의 약 20%를 호스팅합니다. 문제가 된 토글은 상당수의 Cloudflare 존(Zone)에서 기본적으로 켜져 있으며, 해당 대시보드는 탐색 메뉴의 3단계 깊숙이 숨겨져 있어 대부분의 팀은 그것이 거기 있는지조차 모릅니다. 만약 당신이 마케팅 리더로서 왜 ChatGPT와 Perplexity가 당신의 브랜드 존재를 모르는 것 같은지 묻고 있다면, 이것이 가장 먼저 배제해야 할 요소이며, 정답일 가능성이 매우 높습니다.

한 줄 확인법

다른 무엇을 하기 전에, 다음을 실행해 보세요:

curl https://yourbrand.com/robots.txt

출력 결과에서 다음 중 하나라도 보인다면, 당신의 사이트는 AI 크롤러를 차단하고 있는 것입니다:

# BEGIN Cloudflare Managed content

User-agent: *
...

Content-Signal: search=yes,ai-train=no 라인 자체는

Cloudflare 대시보드에 로그인합니다.
해당 도메인의 존(zone)을 선택합니다.
왼쪽 사이드바 → AI Crawl Control (일부 계정에서는 "AI Audit")을 클릭합니다.
"Managed robots.txt" 카드를 찾습니다 — 오른쪽 상단에 파란색 토글 스위치가 있습니다.
스위치를 끕니다.
변경 사항이 전파될 때까지 약 30초 정도 기다립니다.
robots.txt를 다시 curl로 호출하여 확인합니다. 약 70줄이었던 내용이 실제 애플리케이션이 제공하는 내용(보통 10~20줄)으로 돌아와야 합니다.

끝입니다. 이 순간부터 AI 크롤러(AI crawlers)가 귀하의 사이트를 읽을 수 있습니다.

저희 사이트에서 다음에 일어날 것으로 예상되는 일

방금 설정을 변경했기 때문에 아직 "전/후" 비교 그래프는 없습니다. 고객들에게서 확인한 내용을 바탕으로 저희가 예상하는 시나리오는 다음과 같습니다:

1~2주 차: Bing의 크롤러(ChatGPT의 브라우징 도구에 데이터를 공급함)가 이전에 포기했던 페이지들을 다시 인덱싱(re-indexing)하기 시작합니다. AI 개요(AI Overviews)가 해당 사이트를 신뢰할 수 있는 소스로 인식하기 시작합니다.
3~4주 차: 카테고리 관련 질의에 대해 Perplexity에서의 언급이 나타나기 시작합니다. 인용률(Citation rate)이 상승합니다.
2~3개월 차: 기반 콘텐츠가 검색 가치가 있는 경우(좋은 구조화된 데이터 (structured data), 실제 카테고리 포지셔닝 콘텐츠, 제3자 인용 등), ChatGPT와 Claude가 해당 사이트의 내용을 답변으로 합성(synthesizing)하기 시작합니다.

저희 자체 스캔을 통한 실제 전/후 수치는 후속 게시물을 통해 공개하겠습니다. 만약 이 문제의 영향을 받았고 이를 해결하셨다면, 귀하의 데이터도 공유해 주시면 감사하겠습니다.

더 큰 패턴

CDN 설정은 저희가 AI 가시성(AI-visibility) 문제를 흔히 발견하는 세 가지 지점 중 하나입니다:

CDN 주입 robots.txt 규칙 (CDN-injected robots.txt rules) (본 포스트의 주제). Cloudflare의 시장 점유율 때문에 Cloudflare의 사례가 가장 흔하지만, 다른 CDN들도 유사한 기능을 가지고 있습니다.
Bing 제외 (Bing exclusion). ChatGPT의 웹 브라우징 도구는 Bing을 통해 실행되는데, Google 순위가 높은 브랜드 중 놀라울 정도로 많은 수가 Bing 인덱스에서 완전히 누락되어 있습니다. Bing Webmaster Tools에서 이를 확인하십시오.
구조화 데이터 공백 (Structured-data gaps). AI 검색 엔진의 검색 계층(retrieval layers)은 적절한 Schema.org JSON-LD (Organization, Product, FAQ, HowTo)를 갖춘 페이지에 높은 가중치를 둡니다. 구조화 데이터 없이 렌더링된 HTML에만 전적으로 의존하는 사이트는 검색 결과에 덜 노출됩니다.

저희는 이에 대한 더 자세한 가이드라인을 ChatGPT 답변에 나타나는 방법 (2026년 전체 플레이북)에 작성해 두었습니다. CDN을 수정하는 것이 이 플레이북의 첫 번째 단계인 데에는 이유가 있습니다. 그것이 가장 영향력이 크면서도 가장 쉽기 때문입니다.

우리가 이 문제를 발견한 이유

저희가 Brandswarm에서 이 문제를 포착할 수 있었던 이유는 공개 출시 전에 저희 도메인을 대상으로 실제 AI 가시성(AI-visibility) 스캔을 실행했기 때문입니다. 스캔 결과 가시성 점수가 매우 낮게 나왔고, 처음에는 사이트가 너무 신생 사이트라서 그런 것이라고 생각했습니다. 하지만 자세히 파고들어 보니, 저희의 마케팅 도구가 GPTBot이 저희에게 도달할 수 없다고 보고하고 있다는 사실을 발견했습니다. robots.txt를 확인해 보니, 바로 거기에 원인이 있었습니다.

이 이야기의 약간 민망한 버전은, 브랜드가 AI 검색에 나타나도록 돕기 위해 특별히 구축된 SaaS가 출시 전 기간 내내 AI 검색에 나타나는 것이 차단되었다는 점입니다. 유용한 버전은, 이 분야를 매일 고민하는 저희 팀에게도 이런 일이 일어났다면, 귀하의 팀에게도 거의 확실히 일어나고 있다는 사실입니다.

추가로 확인해야 할 곳

Cloudflare 대시보드에 있는 동안 다음 사항도 확인하십시오:

Security → Bots → AI Audit → Block AI Bots. 이것은 (robots.txt를 통해서만이 아니라) 방화벽 계층에서 AI 봇을 차단하는 별도의 토글(toggle)입니다. 만약 이 설정이 켜져 있다면, 꺼주십시오. 이 차단 기능이 활성화되어 있다면 대시보드에 "Unsuccessful requests" 카운터가 표시될 것입니다.
Security → WAF → Managed Rules. 이름에 "AI" 또는 "bot"이 포함된 규칙이 있는지 확인하십시오. AI 유저 에이전트(user-agents)를 차단하고 있는 규칙이 있다면 비활성화하십시오.
Cache Rules. 일부 팀은 AI 크롤러를 "캐시 없음(cache nothing)" 버킷에 넣기도 하는데, 이는 괜찮지만 만약 이들이 캐시에서도 우회(bypass)된다면, 응답 시간이 너무 느려져 크롤러가 포기할 수 있습니다.

Cloudflare를 사용하지 않는 경우

다른 CDN들도 유사한 기능을 제공합니다. AWS CloudFront에는 "Block AI bots" 관리 규칙(managed rule)이 있습니다. Akamai에는 "AI Bot Manager"가 있습니다. Fastly에는 AI 크롤러를 포함할 수 있는 봇 정책(bot-policy) 규칙이 있습니다. Vercel과 Netlify는 도메인 수준의 robots.txt 재정의(override)를 허용하므로, 귀하의 설정이 GPTBot, ClaudeBot, Google-Extended, PerplexityBot을 허용하지 않고(disallow) 있지는 않은지 확인하십시오.

FAQ

저는 실제로 학습 데이터로 사용되는 것을 거부하고 싶습니다. 올바른 방법은 무엇인가요?

전체 Disallow: / 차단 방식보다는 Content-Signal 메커니즘(Cloudflare가 깔끔하게 지원함)을 사용하십시오. Content Signal 분류 체계는 세 가지 용도를 구분합니다: search (검색을 위한 인덱싱), ai-input (실시간 RAG / AI 답변을 위한 검색), 그리고 ai-train (학습 데이터). 만약 학습만 차단하고 싶다면, search=yes, ai-input=yes, ai-train=no로 설정하십시오. 규칙을 잘 준수하는 크롤러들은 이를 존중합니다. 이렇게 하면 내년 모델에 포함되는 것은 거부하면서도, AI 검색 결과에는 계속 노출될 수 있습니다.

크롤러가 robots.txt 대신 Content-Signal을 준수하는지 어떻게 알 수 있나요?

주요 기업들(OpenAI, Anthropic, Google, Perplexity, Microsoft, ByteDance)은 모두 robots.txt를 엄격히 준수합니다. Content-Signal은 더 최신 기술(2024년)이며 채택률이 높아지고 있지만 아직 보편적이지는 않습니다. 현재로서는 robots.txt를 사용하여 크롤러를 _허용(allow)_하고, Content-Signal을 사용하여 _사용을 제한(restrict the use)_하는 것이 보수적이고 안전한 접근 방식입니다.

이것이 저의 Google 순위에 영향을 미칠까요?

아니요. 우리가 논의한 AI 크롤러(AI crawlers) 중 그 어느 것도 Googlebot(Google의 일반 검색 크롤러)이 아닙니다. 이들은 AI 기능을 위해 특별히 설계된 별도의 봇 세트입니다. AI 크롤러의 차단을 해제하는 것은 전통적인 검색(classical search)에 전혀 영향을 미치지 않습니다.

Brandswarm은 여기서 무엇을 하나요?

우리는 5가지 주요 AI 서비스 — ChatGPT, Claude, Perplexity, Gemini, AI Overviews — 전체에 걸쳐 귀하의 도메인을 스캔하여, 귀하가 어디에서 노출되고 있는지, 어디에서 노출되지 않는지, 그리고 무엇이 그 격차를 유발하고 있는지 정확히 알려드립니다. 무료 스캔은 신용카드를 요구하지 않으며 60초 내에 완료됩니다. 만약 원인이 위에서 언급한 Cloudflare 차단과 같은 것이라면, 저희가 이를 표시해 드립니다.

결론

만약 귀하의 robots.txt에 "Cloudflare Managed content" 차단 설정이 포함되어 있다면, 귀하는 AI 검색 엔진에 보이지 않는 상태입니다. 해결 방법은 토글(toggle) 하나면 충분합니다. 만약 오랫동안 차단되어 있었다면, 영향을 회복하는 데 몇 주가 걸릴 수 있지만, 반드시 회복됩니다. 지금 바로 귀하의 설정을 확인해 보세요.