Cloudflare의 새로운 AI 크롤러 제어 기능: 가시성을 액세스 정책 결정으로 전환하다
요약
Cloudflare가 AI 트래픽을 검색, 에이전트, 학습용 크롤러로 세분화하여 관리할 수 있는 새로운 제어 기능을 발표했습니다. 이를 통해 사이트 소유자는 콘텐츠의 가시성과 모델 학습 활용 여부를 전략적으로 결정할 수 있습니다.
핵심 포인트
- AI 트래픽을 Search, Agent, Training 세 가지로 정밀 분류
- 광고 페이지 내 학습 및 에이전트 트래픽 기본 차단 설정
- SaaS 기업의 제품 문서 및 API 자산 보호 전략 강화
- 단순 SEO를 넘어선 액세스 정책 중심의 AI 대응 필요성
수년 동안 웹사이트 트래픽은 파악하기가 더 쉬웠습니다.
검색 엔진 (Search engines)이 귀하의 사이트를 크롤링했습니다.
그들은 페이지를 인덱싱 (indexed)했습니다.
일부 사용자들은 검색 결과(search results)를 통해 다시 방문했습니다.
그 거래가 완벽했던 적은 없었지만, 이해할 수 있는 수준이었습니다.
AI 트래픽은 상황을 더 복잡하게 만들었습니다.
크롤러 (crawler)는 검색을 위해 페이지를 인덱싱할 수 있습니다.
에이전트 (agent)는 사용자가 작업을 완료하도록 요청했기 때문에 페이지를 가져올 수 있습니다.
학습 크롤러 (training crawler)는 모델을 개선하기 위해 콘텐츠를 수집할 수 있습니다.
혼합 목적의 크롤러 (mixed-purpose crawler)는 이 중 한 가지 이상의 일을 할 수도 있습니다.
이것들은 모두 같은 종류의 방문이 아닙니다.
Cloudflare의 최신 AI 트래픽 제어 기능이 중요한 이유는 그 차이를 더 명확하게 보여주기 때문입니다.
창업자에게 미치는 영향은 기술적일 뿐만 아니라 전략적입니다:
AI 가시성 (AI visibility)은 단순한 SEO 결정이 아니라, 액세스 정책 (access-policy) 결정이 되어가고 있습니다.
Cloudflare가 변경한 사항
Cloudflare는 2026년 7월 1일부터 모든 고객을 대상으로 새로운 AI 트래픽 옵션을 발표했습니다.
중요한 변화는 AI 트래픽을 더 이상 하나의 광범위한 카테고리로 취급하지 않는다는 점입니다.
Cloudflare는 사이트 소유자가 세 가지 주요 사용 사례에 따라 AI 트래픽을 관리할 수 있도록 허용하고 있습니다:
- Search (검색): 콘텐츠를 수집하거나 인덱싱하여 나중에 검색 결과나 답변 경험에 나타나게 하는 봇 (bots).
- Agent (에이전트): 실시간으로 작업을 완료하기 위해 사이트를 방문하는 사용자 지시형 에이전트.
- Training (학습): 모델을 학습시키거나 미세 조정 (fine-tune)하기 위해 콘텐츠를 수집하는 크롤러.
Cloudflare는 또한 2026년 9월 15일에 이러한 분류에 대한 새로운 기본값 (defaults)을 설정할 것이라고 밝혔습니다. Cloudflare에 새로 온보딩하는 도메인의 경우, 광고를 표시하는 페이지에서 Training 및 Agent 카테고리는 기본적으로 차단되는 반면, Search는 기본적으로 허용된 상태로 유지됩니다.
이것이 중요한 이유는 많은 팀이 하나로 취급해 온 세 가지 요소를 분리하기 때문입니다:
- 발견 가능성 (discoverability),
- 사용자 지시형 자동화 (user-directed automation),
- 그리고 장기적인 모델 학습 (long-term model training).
이것이 SaaS 및 소프트웨어 창업자에게 중요한 이유
SaaS 기업이 이 문제의 영향을 받기 위해 반드시 미디어 퍼블리셔(media publisher)일 필요는 없습니다.
대부분의 소프트웨어 기업은 비즈니스 가치를 창출하는 공개 웹 자산(public web assets)을 보유하고 있습니다:
- 제품 페이지 (product pages),
- 문서 (documentation),
- 가격 페이지 (pricing pages),
- 변경 로그 (changelogs),
- 고객 센터 (help centers),
- 비교 페이지 (comparison pages),
- 기술 가이드 (technical guides),
- API 문서 (API docs),
- 템플릿 (templates),
- 사례 연구 (case studies),
- 그리고 지식 베이스 (knowledge-base) 문서.
이러한 페이지들은 단순한 "콘텐츠"가 아닙니다.
이들은 고객 유치 (acquisition), 온보딩 (onboarding), 지원 (support), 신뢰 (trust), 그리고 제품 채택 (product adoption)을 뒷받침합니다.
AI 시스템이 해당 콘텐츠를 발견, 요약, 재사용하거나 이를 바탕으로 동작하기 시작할 때, 창업자들은 실제로 어떤 종류의 액세스 (access)를 원하는지 결정해야 합니다.
과거의 질문은 다음과 같았습니다:
"검색 엔진이 우리를 찾을 수 있는가?"
새로운 질문은 다음과 같습니다:
"어떤 자동화된 시스템이 우리 사이트의 어느 부분을, 어떤 목적으로 사용하도록 허용해야 하는가?"
이것이 훨씬 더 나은 질문입니다.
모든 AI 트래픽이 동일한 비즈니스 가치를 갖는 것은 아니다
가장 큰 실수는 모든 AI 봇 (bot) 트래픽을 단순히 좋거나 나쁜 것으로 취급하는 것입니다.
그것은 너무 단순한 접근입니다.
검색 트래픽은 발견을 도울 수 있다
검색 중심의 크롤링 (crawling)은 사용자가 귀사의 제품, 문서, 또는 전문 지식을 찾는 데 도움을 줄 수 있습니다.
많은 SaaS 팀에게 모든 검색 유사 크롤링을 차단하는 것은 위험할 수 있는데, 이는 발견 가능성 (discoverability)을 감소시킬 수 있기 때문입니다.
사용자들이 AI 기반 검색 경험을 통해 점점 더 많은 답변을 찾아가는 상황에서는 이 점이 더욱 중요합니다.
만약 공개 페이지를 너무 공격적으로 차단한다면, 제품을 찾기가 더 어려워지거나 답변 엔진 (answer engines)에서 제품을 설명하기가 더 어려워질 수 있습니다.
에이전트 트래픽은 사용자의 작업 완료를 도울 수 있다
에이전트 (Agent) 트래픽은 다릅니다.
AI 에이전트는 사용자를 위해 요금제를 비교하려고 귀사의 가격 페이지를 방문할 수 있습니다.
개발자가 귀사의 제품을 통합할 수 있도록 API 문서를 읽을 수도 있습니다.
고객의 지원 문제를 안내하기 위해 고객 센터의 내용을 가져올 수도 있습니다.
이는 유용할 수 있습니다.
하지만 이는 동시에 제품 및 신뢰에 관한 질문을 던지게 합니다:
- 에이전트가 올바른 페이지를 보고 있는가?
- 정보가 최신 상태인가?
- 인간만을 위해 의도된 콘텐츠에 접근할 수 있는가?
- 상호작용이 사용자 가치 없이 부하(load)만 생성하고 있는가?
- 일부 에이전트 워크플로우(workflow)에 인증(authentication)이 필요해야 하는가?
- 트랜잭션 흐름(transactional flows)에 속도 제한(rate-limit)을 걸거나 게이트(gate)를 설치해야 하는가?
에이전트 액세스(Agent access)는 단순한 트래픽 결정이 아닙니다. 이는 제품 경험(product-experience) 결정이 될 수 있습니다.
학습 트래픽은 다른 결과를 초래합니다
학습(Training) 액세스는 또 다릅니다.
만약 크롤러(crawler)가 모델을 학습(train)시키거나 미세 조정(fine-tune)하기 위해 귀하의 공개 페이지를 사용한다면, 비즈니스 가치는 덜 직접적입니다.
콘텐츠가 모델을 개선하는 데 도움이 될 수는 있지만, 사용자를 귀하의 사이트로 다시 보내거나, 제품 채택(product adoption)을 개선하거나, 측정 가능한 비즈니스 성과를 창출하지는 않을 수 있습니다.
어떤 기업들은 이를 수용할 수도 있습니다.
반면 그렇지 않은 기업들도 있을 것입니다.
핵심은 모든 창업자에게 하나의 정답이 적용된다는 것이 아닙니다.
핵심은 이제 창업자들에게 더 구체적인 정책이 필요하다는 점입니다.
이것이 구현 문제(implementation issue)가 되는 이유
정책은 명확하게 구현될 수 있을 때에만 유용합니다.
소프트웨어 팀에게 있어 AI 트래픽 제어는 스택(stack)의 여러 부분에 영향을 미칩니다:
- robots.txt 및 콘텐츠 시그널(content signals),
- CDN 또는 에지(edge) 규칙,
- 봇 관리(bot management) 설정,
- 인증 경계(authentication boundaries),
- API 속도 제한(rate limits),
- 유료 또는 게이트(gated) 콘텐츠,
- 공개 문서(public documentation),
- 지원 콘텐츠(support content),
- 분석(analytics),
- 그리고 모니터링(monitoring).
위험은 단지 "나쁜 봇(bad bots)"만이 아닙니다.
위험은 불분명한 액세스입니다.
만약 팀이 목적에 따라 트래픽을 분리하지 않는다면, 다음과 같은 투박한 결정을 내릴 수 있습니다:
- 너무 많이 차단하여 유용한 가시성(visibility)을 잃거나,
- 너무 많이 허용하여 통제력을 잃거나,
- 강제성 없이 robots.txt에만 의존하거나,
- 크롤러가 무엇을 하려고 했는지 이해하지 못한 채 트래픽을 측정하는 것입니다.
Cloudflare의 행보는 더 실용적인 방향을 반영합니다: 무엇을 허용할지 결정하기 전에 행동과 유스케이스(use case)에 따라 자동화된 트래픽을 분류하는 것입니다.
창업자 친화적인 액세스 정책
간단한 시작 정책은 다음과 같을 수 있습니다.
1. 유용한 탐색(discovery) 허용
공개된 제품 페이지, 교육용 콘텐츠, 그리고 도움말 콘텐츠는 계속해서 발견(discoverable)될 수 있어야 할 수도 있습니다.
대부분의 SaaS 기업의 경우, 여기에는 다음이 포함됩니다:
- 홈페이지,
- 제품 페이지,
- 문서 (documentation),
- 가격 요약 페이지,
- 릴리스 노트 (release notes),
- 비교 페이지,
- 그리고 공개 가이드.
목표는 제품을 계속 찾을 수 있는 상태로 유지하는 것입니다.
2. 에이전트 액세스와 검색 액세스 분리
사용자가 지시하는 AI 에이전트(AI agent)가 항상 검색 인덱서(search indexer)와 동일한 것은 아닙니다.
만약 에이전트가 실제 사용자가 제품을 평가하거나 사용하는 것을 돕고 있다면, 액세스는 가치가 있을 수 있습니다.
하지만 팀은 여전히 경계를 정의해야 합니다:
- 에이전트가 어떤 페이지를 가져올(fetch) 수 있는가?
- 어떤 워크플로 (workflows)에 인증 (authentication)이 필요한가?
- 에이전트가 자동으로 수행해서는 안 되는 작업은 무엇인가?
- 어떤 엔드포인트 (endpoints)를 자동화된 오용으로부터 보호해야 하는가?
- 어떤 속도 제한 (rate limits)을 적용해야 하는가?
이는 대시보드, 양식 (forms), 결제 흐름 (checkout flows), 계정 페이지, 또는 지원 워크플로 (support workflows)를 가진 SaaS 제품에 더 중요합니다.
3. 학습용 액세스가 가치를 창출하는지 결정
학습용 액세스 (Training access)를 당연하게 가정해서는 안 됩니다.
창업자는 다음과 같은 질문을 던질 수 있습니다:
- 학습을 허용하는 것이 우리의 배포 (distribution)에 도움이 되는가?
- 그것이 의미 있는 추천 (referral)이나 브랜드 가치를 창출하는가?
- 우리가 막대한 투자를 하고 있는 콘텐츠를 노출시키는 것인가?
- 해당 콘텐츠가 이미 다른 곳에서 널리 이용 가능한가?
- 라이선스 (licensing), 차단 (blocking), 또는 제한적 액세스 중 무엇을 선호하는가?
정답은 비즈니스 모델에 따라 다릅니다.
문서 중심의 개발자 도구는 유료 연구 플랫폼, 마켓플레이스, SaaS 도움말 센터, 또는 콘텐츠 중심 기업과는 다르게 생각할 수 있습니다.
4. 발생하는 상황을 추적
액세스 정책은 한 번 설정하고 잊어버려서는 안 됩니다.
팀은 다음 사항을 검토해야 합니다:
- 크롤러 카테고리 (crawler categories),
- 트래픽 양 (traffic volume),
- 추천 품질 (referral quality),
- 서버 부하 (server load),
- 봇 동작 (bot behavior),
- 검색 가시성 (search visibility),
- 지원 영향 (support impact),
- 그리고 과도한 자동화 트래픽을 받는 페이지.
목표는 모든 봇에 집착하는 것이 아닙니다.
목표는 자동화된 액세스가 발견 가능성 (discoverability), 비용, 고객 경험, 또는 콘텐츠 가치에 영향을 미칠 때 이를 알아차리는 것입니다.
실질적인 결과
웹은 단순한 크롤링 및 참조 (crawl-and-referral) 모델에서 더 복잡한 AI 액세스 (AI access) 모델로 이동하고 있습니다.
그것이 창업자들이 모든 것을 차단해야 한다는 의미는 아닙니다.
또한 모든 것을 허용해야 한다는 의미도 아닙니다.
더 유용한 대응은 각 종류의 자동화된 방문자가 무엇을 할 수 있도록 허용할지 결정하는 것입니다.
SaaS 창업자에게 액세스 결정은 다음과 같을 수 있습니다:
- 검색 크롤러 (Search crawlers)는 공개된 제품 및 문서 페이지를 인덱싱 (index)할 수 있습니다.
- 사용자 지향 에이전트 (User-directed agents)는 공개된 지원 및 문서 콘텐츠에 액세스할 수 있습니다.
- 학습 크롤러 (Training crawlers)는 차단되거나, 제한되거나, 라이선스 (licensing) 경로를 통해 처리될 수 있습니다.
- 인증된 제품 영역은 보호된 상태로 유지됩니다.
- 가치가 높거나 수익화된 콘텐츠에는 더 엄격한 규칙이 적용됩니다.
- 자동화된 트래픽이 실제로 무엇을 하고 있는지 확인하기 위해 분석 (Analytics) 내용을 매월 검토합니다.
이는 "AI 봇 차단" 또는 "AI 봇 허용"보다 더 차분하고 유용한 정책입니다.
팀이 지금 해야 할 일
만약 귀사의 회사가 발견 (discovery), 온보딩 (onboarding), 또는 고객 지원을 위해 공개 콘텐츠에 의존하고 있다면, 다음 다섯 가지 영역을 검토하십시오:
-
공개 페이지 (Public pages)
어떤 페이지가 검색 엔진 및 답변 엔진 (answer engines)에 의해 계속 발견 가능해야 합니까? -
문서 및 도움말 콘텐츠 (Documentation and help content)
사용자 지향 지원을 위해 AI 에이전트가 가져올 수 있어야 하는 페이지는 무엇입니까? -
학습 액세스 (Training access)
허가나 보상 없이 모델 학습 (model training)에 사용되어서는 안 되는 콘텐츠는 무엇입니까? -
인증된 흐름 (Authenticated flows)
어떤 제품 영역, 양식, 또는 작업이 인증되지 않은 자동화에 절대 노출되어서는 안 됩니까? -
측정 (Measurement)
팀이 어떤 봇이 방문하고 있는지, 그들이 무엇을 하고 있는지, 그리고 그들이 가치를 창출하고 있는지 확인할 수 있습니까?
중요한 점은 특정 벤더 (vendor)의 설정을 맹목적으로 채택하는 것이 아닙니다.
중요한 점은 그 결과를 이해하는 것입니다.
AI 트래픽은 더 이상 단일한 개념이 아닙니다.
검색, 에이전트, 그리고 학습 액세스는 서로 다른 비즈니스 결과 (business outcomes)를 만들어냅니다.
창업자들은 이들을 다르게 관리해야 합니다.
출처 (Sources)
출처 (Sources)
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기