AI 검색을 위한 robots.txt: 2026년 치트 시트 (GPTBot, ClaudeBot 및 기타)

원문은 brandswarm.io/blog/robots-txt-for-ai-search/에 게시되었습니다.

여러분의 robots.txt는 AI 크롤러(crawlers)가 사이트에 도착했을 때 가장 먼저 확인하는 곳입니다. 이를 잘못 설정하면 여러분의 콘텐츠, 스키마(schema), 또는 백링크(backlinks)가 아무리 훌륭하더라도 ChatGPT, Claude, Perplexity, Gemini, 그리고 AI 개요(AI Overviews)에서 보이지 않게 됩니다. 제대로 설정하기만 하면 비용은 제로입니다. 그저 텍스트 파일일 뿐이니까요.

이것은 치트 시트입니다. 2026년에 중요한 모든 AI 크롤러, 허용 여부, 그리고 오늘 바로 적용할 수 있는 복사-붙여넣기 가능한 robots.txt 파일을 제공합니다.

중요한 유저 에이전트 (User-agents)

User-agent	운영사 (Operator)	역할	허용 여부?
`GPTBot`	OpenAI	미래 모델을 학습시킴. ChatGPT를 위한 실시간 검색(real-time retrieval)은 수행하지 않음.	예 — 가시성 확보, 학습 목적 아님
...

빠른 결정: 95%의 사례를 커버하는 3가지 정책

정책 A: 최대 AI 가시성 (SaaS, 콘텐츠 브랜드, B2B 권장)

# 최대 AI 가시성. 모든 주요 엔진에 대해 학습 + 검색(retrieval)을 허용합니다.
User-agent: *
Allow: /
...

여러분의 비즈니스가 AI 답변에서 발견됨으로써 이득을 얻는다면 이것이 올바른 정책입니다. 거의 모든 SaaS, B2B 기업, 그리고 무엇인가를 판매하는 브랜드가 이 범주에 속합니다. 와일드카드 User-agent: *는 AI를 포함한 모든 크롤러에 적용됩니다.

정책 B: AI 검색은 허용, AI 학습은 차단 (콘텐츠 신호 타협안)

# 실시간 검색(retrieval)을 허용하여 (사용자가 질문할 때 AI가 여러분을 인용할 수 있도록 함)
# 하지만 콘텐츠가 모델 학습에 사용되어서는 안 된다는 신호를 보냅니다.
User-agent: *
...

ChatGPT/Perplexity/Gemini의 답변에서 발견되기를 원하지만, 여러분의 콘텐츠가 내년의 모델 학습 데이터로 구워지는(baked into) 것은 원하지 않는다면 이 정책을 사용하십시오. Content-Signal 헤더는 2025년 중반 기준으로 OpenAI, Anthropic, Google, Perplexity에 의해 준수되고 있습니다. 이는 적절한 절충안입니다.

정책 C: 모든 것 차단 (진정으로 AI 가시성을 원하지 않는 사이트 전용)

# 모든 AI 크롤러를 명시적으로 차단합니다. 전통적인 검색을 위해 Googlebot/Bingbot은 허용합니다.
User-agent: GPTBot
Disallow: /
...

유료 프리미엄 콘텐츠, 수익화 문제가 있는 뉴스 조직, 민감한 자료 등 강력한 이유가 있는 경우에만 이 방법을 사용하십시오. 주의할 점은, AI 검색 (AI retrieval)을 차단하면 사용자가 AI 어시스턴트에게 귀하의 카테고리에 대해 물었을 때 귀하의 브랜드가 인용되지 않는다는 것입니다. 대부분의 비즈니스에 있어 이는 전략적인 실수입니다.

Cloudflare의 함정

귀하의 사이트가 Cloudflare 뒤에 있는 경우, 원본 서버(origin)가 무엇을 제공하든 관계없이 전송 과정에서 robots.txt에 정책 C 스타일의 차단 설정을 주입하는 **"AI Crawl Control → Managed robots.txt"**라는 기능이 있습니다. 많은 존(zone)에서 이 토글은 기본적으로 켜져 있습니다. 많은 브랜드가 자신도 모르게 모든 AI 크롤러를 차단하고 있습니다.

확인 방법: curl https://yourdomain.com/robots.txt를 실행하십시오. 만약 "# BEGIN Cloudflare Managed content"라는 제목의 차단 문구가 보인다면, 영향을 받고 있는 상태입니다. Cloudflare → AI Crawl Control → Managed robots.txt에서 토글을 끄십시오. 전체 이야기는 여기에 정리해 두었습니다.

`robots.txt` 검증하기

세 가지 빠른 확인 방법:

Search Console의 Google robots.txt 테스터 사용 — URL과 유저 에이전트 (user-agent)를 붙여넣으면 해당 페이지를 가져올 수 있는지 알려줍니다. 현재 이 테스터는 URL 검사 도구(URL Inspection tool) 아래에 포함되어 있습니다.
각 크롤러의 유저 에이전트 (user-agent)로 Curl 실행 및 응답 확인:

   curl -A "GPTBot" https://yourdomain.com/robots.txt
   curl -A "ClaudeBot" https://yourdomain.com/robots.txt

Bing Webmaster Tools의 크롤링 오류(Crawl Errors) 모니터링 — Bing은 robots.txt에 의해 차단된 URL을 해당 도구에 보고합니다. 다른 엔진들은 이를 이만큼 깔끔하게 보여주지 않습니다.

세 가지 규칙

특정 사용자 에이전트(User-agent)가 와일드카드(Wildcard)보다 우선합니다. 만약 User-agent: * Allow: /가 있고 그 아래에 User-agent: GPTBot Disallow: /가 있다면, GPTBot은 차단됩니다. 와일드카드는 대체 수단(Fallback)이 아니라, 특정 규칙이 덮어쓰는 기본값(Default)입니다.
크롤러당 하나의 User-agent 블록만 사용하세요. 일부 사이트는 서로 다른 블록에 서로 다른 규칙으로 User-agent: GPTBot을 반복하는데, 이 경우 첫 번째 블록만 적용됩니다. 하나로 통합하십시오.
Google-Extended를 의도한 것이라면 Googlebot을 차단하지 마세요. 이들은 서로 다른 크롤러입니다. Googlebot은 검색(Search)과 AI 개요(AI Overviews)를 구동하며, Google-Extended는 Gemini 학습을 구동합니다. Googlebot을 차단하면 기존의 Google 트래픽이 급감합니다.

FAQ

ChatGPT에는 포함되고 싶지만 Claude에는 포함되고 싶지 않습니다. 가능한가요?

네. GPTBot, OAI-SearchBot, ChatGPT-User는 허용(Allow)하고, ClaudeBot, Claude-Web, anthropic-ai는 차단(Disallow)하면 됩니다. 대부분의 브랜드는 AI 어시스턴트가 존재하는 모든 곳에 존재하기를 원하므로 실질적인 영향은 미미하겠지만, 선택지는 열려 있습니다.

`noai` 및 `noimageai` 메타 태그는 어떤가요?

이것들은 robots.txt 규칙의 페이지 수준(Page-level) 대응 방식입니다. 크롤러에게 해당 페이지의 콘텐츠를 AI 학습에 사용하지 말라고 지시합니다. Content-Signal 헤더보다 덜 널리 준수되지만, 정말 중요한 페이지에서 심층 방어(Defense-in-depth) 수단으로 유용합니다.

`llms.txt`는 어떤가요?

"LLM이 깔끔하게 흡수할 수 있도록 내 콘텐츠를 선별된 텍스트 버전으로 제공한다"는 제안된 표준입니다. 채택 정도는 불균일합니다. OpenAI와 Anthropic 모두 2025년에 정상적으로 크롤링하는 것을 선호한다고 공개적으로 밝혔습니다. 생성하기 쉽다면 배포할 가치가 있지만, 이를 주요 AI 가시성(AI-visibility) 전략으로 의존하지는 마십시오.

`X-Robots-Tag` HTTP 헤더도 추가해야 하나요?

robots.txt가 표현할 수 없는 페이지별 세밀함(Granularity)이 필요한 경우에만 추가하십시오 (예: "이 특정 PDF를 목록에 나열하지 않고 noindex 처리하기"). 광범위한 AI 가시성 정책을 위해서는 robots.txt만으로도 충분합니다.

결론

대부분의 브랜드는 정책 A (Policy A)를 시행함으로써 승리합니다. 일부는 정책 B (Policy B)를 시행하여 승리합니다. 정책 C (Policy C)를 시행해야 하는 브랜드는 매우 적습니다. 어떤 것을 선택하든 의도적으로 실행하십시오. 그리고 CDN (Content Delivery Network) 설정이 변경될 때마다 다시 확인하십시오. 브랜드가 AI 가시성 (AI visibility)을 잃는 가장 흔한 이유는 전략적 결정 때문이 아닙니다. 인지하지 못한 채 스위치가 켜진 CDN 기능 때문입니다.

AI 검색을 위한 robots.txt: 2026년 치트 시트 (GPTBot, ClaudeBot 및 기타)

요약

핵심 포인트

중요한 유저 에이전트 (User-agents)

빠른 결정: 95%의 사례를 커버하는 3가지 정책

정책 A: 최대 AI 가시성 (SaaS, 콘텐츠 브랜드, B2B 권장)

정책 B: AI 검색은 허용, AI 학습은 차단 (콘텐츠 신호 타협안)

정책 C: 모든 것 차단 (진정으로 AI 가시성을 원하지 않는 사이트 전용)

Cloudflare의 함정

`robots.txt` 검증하기

세 가지 규칙

FAQ

ChatGPT에는 포함되고 싶지만 Claude에는 포함되고 싶지 않습니다. 가능한가요?

`noai` 및 `noimageai` 메타 태그는 어떤가요?

`llms.txt`는 어떤가요?

`X-Robots-Tag` HTTP 헤더도 추가해야 하나요?

결론

댓글

AI 검색을 위한 robots.txt: 2026년 치트 시트 (GPTBot, ClaudeBot 및 기타)

요약

핵심 포인트

중요한 유저 에이전트 (User-agents)

빠른 결정: 95%의 사례를 커버하는 3가지 정책

정책 A: 최대 AI 가시성 (SaaS, 콘텐츠 브랜드, B2B 권장)

정책 B: AI 검색은 허용, AI 학습은 차단 (콘텐츠 신호 타협안)

정책 C: 모든 것 차단 (진정으로 AI 가시성을 원하지 않는 사이트 전용)

Cloudflare의 함정

robots.txt 검증하기

세 가지 규칙

FAQ

ChatGPT에는 포함되고 싶지만 Claude에는 포함되고 싶지 않습니다. 가능한가요?

noai 및 noimageai 메타 태그는 어떤가요?

llms.txt는 어떤가요?

X-Robots-Tag HTTP 헤더도 추가해야 하나요?

결론

댓글

`robots.txt` 검증하기

`noai` 및 `noimageai` 메타 태그는 어떤가요?

`llms.txt`는 어떤가요?

`X-Robots-Tag` HTTP 헤더도 추가해야 하나요?