차단할 것인가, 비용을 청구할 것인가, 허용할 것인가? AI 검색 가시성을 조용히 제어하는 AI 크롤러 결정

당신의 CDN 대시보드 깊숙한 곳에는 ChatGPT, Perplexity, 그리고 Google의 AI Mode가 당신의 콘텐츠를 볼 수 있는지 여부를 결정하는 설정이 숨겨져 있습니다. 대부분의 마케터는 이를 한 번도 확인해 본 적이 없습니다. 2026년에는 이것이 문제가 될 것입니다.

Cloudflare는 이제 네트워크의 신규 사이트에 대해 OpenAI의 GPTBot 및 Anthropic의 ClaudeBot과 같은 AI 크롤러(AI crawlers)를 기본적으로 차단하며, '크롤링당 과금 (Pay Per Crawl)' 시스템을 통해 퍼블리셔가 봇에게 접근 비용을 청구할 수 있도록 합니다. 결과적으로, 인프라 팀이 마케팅 팀이 알지 못하는 사이 가시성(visibility) 결정을 내리고 있을 수 있습니다. 만약 모델의 크롤러가 당신의 페이지를 읽을 수 없다면, 당신의 브랜드는 모델의 답변에서 인용될 수 없습니다.

"차단, 청구, 또는 허용"은 실제로 무엇을 의미하는가?

Cloudflare의 AI 크롤 제어 (AI Crawl Control)는 문을 두드리는 모든 AI 봇에 대해 퍼블리셔에게 세 가지 선택지를 제공합니다. **허용 (Allow)**은 무료 접근을 부여합니다. **청구 (Charge)**는 거의 사용되지 않는 HTTP 402 "결제 필요 (Payment Required)" 응답 코드를 사용하여 당신이 설정한 가격으로 결제를 요구합니다. **차단 (Block)**은 HTTP 403으로 접근을 거부하며, 나중에 결제가 협상될 수 있다는 암시를 남깁니다. (Search Engine Land)

이전에는 선택지가 이분법적이고 극단적이었습니다. AI 스크레이퍼(scrapers)에게 콘텐츠를 무료로 개방하거나, 아니면 완전히 벽을 쳐서 막아버리는 것이었습니다. "청구" 옵션은 새로운 중간 경로입니다. Cloudflare는 유료 URL을 요청하는 크롤러가 가격 헤더(price header)를 받을 수 있도록 HTTP 402 메커니즘을 도입했습니다. 만약 봇이 해당 금액까지 지불하도록 설정되어 있다면, 콘텐츠가 제공됩니다. (Cloudflare)

이는 퍼블리셔에게는 승리처럼 들립니다. 하지만 당신의 AI 가시성 측면에서는 양날의 검입니다.

이것이 AI 답변 내 브랜드 언급에 중요한 이유

대부분의 팀이 놓치는 연쇄 반응이 여기에 있습니다. ChatGPT 및 Perplexity와 같은 모델은 라이브 웹 페이지를 검색하고 읽음으로써 당신의 브랜드를 노출합니다. 만약 크롤러의 문이 닫혀 있다면, 당신은 후보군(candidate set)에 포함되지 않습니다. 크롤링이 없으면, 읽을 수 없고, 인용도 없습니다.

크롤링의 규모는 대부분이 인식하는 것보다 훨씬 큽니다. ByteDance의 크롤러인 Bytespider는 Cloudflare 네트워크에서 가장 활발한 AI 봇으로, Cloudflare가 보호하는 모든 도메인의 40.4% 이상을 타격하고 있습니다. GPTBot은 가장 주류임에도 불구하고 가장 빈번하게 차단되는 봇 중 하나입니다. (Search Engine Land) 많은 퍼블리셔(publisher)들은 이러한 봇들이 방문하고 있다는 사실조차 알지 못합니다.

따라서 당신은 두 가지 방식으로 AI 검색에서 보이지 않게 될 수 있습니다. 콘텐츠를 보호하기 위해 의도적으로 크롤러를 차단하거나, 기본 설정 또는 보안 규칙이 이미 크롤러를 차단하고 있는데 아무도 이를 확인하지 않아 실수로 차단되는 경우입니다.

이것이 바로 Sourceable가 포착하기 위해 구축된 사각지대입니다. Sourceable는 ChatGPT, Claude, Gemini, 그리고 Perplexity 전반에 걸쳐 당신의 브랜드가 언제, 어떻게 나타나는지를 추적합니다. 따라서 크롤러의 변경으로 인해 AI 답변에서 당신이 조용히 제외되더라도, 트래픽이 왜 떨어졌는지 추측하는 대신 언급량(mentions)의 감소를 통해 이를 확인할 수 있습니다.

"무료 배포 vs 유료 라이선싱"의 트레이드오프 (tradeoff)

AI 크롤러를 차단하거나 비용을 청구하는 것은 콘텐츠를 보호하고 라이선싱 수익원을 창출할 수 있습니다. 주요 퍼블리셔들은 이미 Cloudflare의 Pay Per Crawl 프로그램에 참여하여, AI 기업들이 자신들이 학습하고 답변에 활용하는 작업에 대해 비용을 지불해야 한다고 내기하고 있습니다. (Search Engine Land)

하지만 대가가 따릅니다. 동일한 Cloudflare 업데이트를 통해, 처음으로 퍼블리셔들은 Googlebot이나 Bingbot과 같은 전통적인 검색 크롤러도 차단하거나 비용을 청구할 수 있게 되었습니다. 하지만 거의 누구도 그렇게 해서는 안 됩니다. Google은 여전히 대부분의 퍼블리셔 트래픽의 30~60% 이상을 견인하고 있으며, The Wall Street Journal은 이미 AI 검색 경험과 관련된 실제 트래픽 감소를 보고했습니다. (Search Engine Land) 특히 AI 측면에서 Bing을 차단하는 것은 중요합니다. ChatGPT의 웹 브라우징은 Bing의 인덱스(index)에 의존하므로, GPTBot을 건드리지 않았더라도 Bingbot을 차단하면 ChatGPT의 도달 범위에서 당신이 사라질 수 있습니다.

이 결정은 "콘텐츠 보호" 대 "무상 제공"의 문제가 아닙니다. 핵심은 다음과 같습니다: 통제권이나 라이선스 수익을 위해 AI 답변 가시성(visibility)을 얼마나 포기할 용의가 있는가? 유료 결제벽(paywall)을 운영하는 미디어 기업에게는 차단이 이득이 될 수 있습니다. 하지만 누군가 ChatGPT에 "X를 위한 최고의 도구"라고 물었을 때 이름이 언급되기를 원하는 B2B SaaS 브랜드에게 차단은 자기 파괴적인 행위입니다.

크롤러 제어 방식이 더욱 세분화되는 방식

이제 봇(bot)별로 '전부 아니면 전무(all-or-nothing)' 식의 선택을 할 필요가 없습니다. Cloudflare는 퍼블리셔가 자신의 콘텐츠를 AI 학습(training)용으로 사용할지, 검색 인덱싱(search indexing)용으로 사용할지, 아니면 추론(inference, 인용을 생성하는 실시간 답변 생성)용으로 사용할지를 각각 선언할 수 있는 콘텐츠 시그널(Content Signals) 메커니즘을 제안했습니다. 이는 하나의 투박한 스위치 대신 세 가지의 별도 권한을 제공하는 방식입니다. (InfoQ)

이러한 세분화(granularity)는 스마트한 브랜드들이 지향해야 할 방향입니다. "내 콘텐츠로 학습하지는 마되, 질문에 답변하고 나를 인용하는 데는 사용해라"라고 말할 수 있기 때문입니다. 이는 보호하고 싶은 요소(학습)와 가시성을 높여주는 요소(추론 및 인덱싱)를 분리합니다.

이번 주에 해야 할 일

귀사의 robots.txt와 CDN의 봇 규칙(bot rules)을 확인하십시오. GPTBot, ClaudeBot, Google-Extended, PerplexityBot, 그리고 Bingbot에 대해 실제로 어떤 일이 일어나고 있는지 확인해야 합니다. "우리는 아무것도 차단하기로 결정한 적이 없다"는 것이 "아무것도 차단되지 않았다"와 같은 의미는 아닙니다. 기본 설정(defaults)은 변하기 때문입니다.

AI 가시성을 원하는 대부분의 브랜드에게 권장하는 실질적인 기본 설정은 다음과 같습니다:

허용 (Allow): 인용된 답변을 생성하는 추론 및 검색 크롤러(GPTBot, PerplexityBot, Google-Extended 등)는 허용하고, Bingbot은 완전히 개방된 상태로 유지하십시오.
과금 또는 차단 고려 (Consider charging or blocking): 대역폭(bandwidth)이나 콘텐츠 도용이 실질적인 우려 사항이라면, 트래픽을 보내지 않으면서 사이트를 공격적으로 긁어가는 Bytespider와 같은 순수 스크래퍼(pure-scraper) 봇에 대해서만 과금 또는 차단을 고려하십시오.
콘텐츠 신호 (Content Signals) 사용: (지원되는 경우) 학습 허용 권한과 인덱싱(indexing) 및 추론(inference) 허용 권한을 분리하기 위해 콘텐츠 신호를 사용하십시오.
결과 모니터링 (Monitor the outcome): 설정 변경은 하나의 가설입니다. 실제로 AI 답변에서의 존재감이 증가했는지 혹은 감소했는지는 방화벽 로그가 아니라 언급 횟수(mention counts)를 통해 나타납니다.

마지막 지점이 바로 대부분의 팀이 눈을 감고 작업하는 부분입니다. 하루 종일 액세스 규칙(access rules)을 감사할 수는 있지만, 증거는 ChatGPT와 Perplexity가 여전히 귀하의 브랜드를 언급하는지 여부에 달려 있습니다. Sourceable은 주요 모델 전반에 걸친 브랜드의 존재감을 지속적으로 관찰함으로써 이 루프를 완성하며, 이를 통해 크롤러 조정이 미스터리가 아닌 측정 가능한 인과관계가 되도록 합니다.

FAQ

AI 크롤러를 차단하면 ChatGPT와 Perplexity에서 내 브랜드가 사라지나요?
그럴 수 있습니다. 모델의 크롤러가 귀하의 페이지를 가져올 수 없다면, 귀하의 콘텐츠는 답변을 구축하기 위해 읽는 후보군(candidate set)에 포함되지 않으므로 인용될 가능성이 훨씬 낮아집니다. 특히 Bingbot을 차단하는 것은 매우 위험한데, ChatGPT의 브라우징 기능이 Bing의 인덱스에 의존하기 때문입니다.

HTTP 402는 무엇이며 왜 갑자기 중요해졌나요?
HTTP 402 "결제 필요 (Payment Required)"는 오랫동안 잠자고 있던 상태 코드였으나, Cloudflare가 이를 '크롤링당한 만큼 지불(Pay Per Crawl)' 방식으로 재활용했습니다. AI 봇이 유료 URL을 요청하면 서버는 가격 정보와 함께 402 코드를 반환하며, 봇이 설정되어 있다면 비용을 지불합니다. 이는 '허용'과 '차단' 이외의 세 번째 옵션으로서 '과금'을 가능하게 하는 기술적 기반입니다. (Cloudflare)

소규모 기업이 콘텐츠 보호를 위해 AI 크롤러를 차단해야 할까요?
보통은 아닙니다. 독점적인 콘텐츠에 대한 접근 권한을 판매하는 것이 아니라면, 더 큰 위험은 가시성(Invisibility)의 상실입니다. 대부분의 소규모 브랜드는 차단이 제공하는 소액의 라이선스 수수료나 콘텐츠 보호보다는 AI 답변에 인용되는 것에서 더 많은 이득을 얻습니다.

크롤러 변경이 나의 AI 가시성에 해를 끼쳤는지 어떻게 알 수 있나요?
변경 전후로 AI 모델 전반에 걸친 브랜드 언급(Brand mentions)을 추적하세요. Sourceable과 같은 모니터링 도구는 ChatGPT, Claude, Gemini, Perplexity가 귀하를 얼마나 자주 참조하는지 기록하므로, 분석 데이터 속에 숨겨지는 대신 수치 하락을 명확히 확인할 수 있습니다.

요점 (The takeaway)

Pay Per Crawl은 이제 모든 브랜드가 의도적으로 답해야 하는 질문, 즉 '차단할 것인가, 비용을 청구할 것인가, 아니면 허용할 것인가?'를 재정의했습니다. 이 결정을 조용히 잘못 내린다면, 단 하나의 나쁜 콘텐츠도 만들지 않고도 AI 검색에서 사라질 수 있습니다. 의도적으로 결정하고, 목표에 부합하는 크롤러 규칙(Crawler rules)을 설정한 다음, AI 언급량을 모니터링하여 그 결정이 옳았는지 확인하십시오.

오늘날 AI 모델이 실제로 귀하의 브랜드를 찾고 인용할 수 있는지 알고 싶으신가요? Sourceable을 통해 귀하의 AI 검색 가시성을 확인해 보세요.