내 robots.txt를 직접 감사해 보니 Cloudflare가 원하는 AI 크롤러들을 차단하고 있었다
요약
Cloudflare의 관리형 설정으로 인해 의도치 않게 AI 크롤러가 차단되는 사례를 다룹니다. robots.txt 설정 오류가 AI 답변 내 인용(citation) 누락으로 이어져 SEO에 악영향을 줄 수 있음을 경고합니다.
핵심 포인트
- 서버의 실제 robots.txt와 리포지토리 파일이 다를 수 있음
- Cloudflare 설정이 AI 크롤러 접근을 차단할 수 있음
- AI 답변 내 인용(citation)을 위해 올바른 크롤러 허용 설정 필요
- on-page SEO만큼이나 크롤러 접근 권한 관리가 중요함
며칠 전, 내 사이트가 AI 답변에 거의 노출되지 않는 이유를 알아내려고 노력했습니다. 저는 독립적인 AI 도구 리뷰 사이트를 운영하는데, ChatGPT, Perplexity, Gemini 등으로부터 인용되는 것이 사실상 제 전체 배포 전략입니다. 그래서 당연하게도 저 자신의 robots.txt 파일을 읽어보았습니다. 제가 발견한 것은 민망했고, 알고 보니 이는 매우 흔한 일이었습니다.
내 리포지토리에 있던 파일과 서버에 있는 파일은 달랐다
제 리포지토리에는 AI 크롤러들을 명시적으로 환영하는 수동으로 작성된 robots.txt가 있었습니다:
User-agent: GPTBot
Allow: /
...
기분이 좋았습니다. 매우 GEO 친화적이었죠. 문제는, 제 서버가 실제로 크롤러들에게 제공했던 robots.txt는 완전히 다른 파일이었다는 것입니다:
# BEGIN Cloudflare Managed content
User-agent: *
Content-Signal: search=yes,ai-train=no,use=reference
...
제가 공들여 작성한 어떤 Allow 규칙도 단 하나의 크롤러에게 도달하지 못했습니다. Cloudflare는 관리형
콘텐츠를 학습 데이터 세트에서 제외하면서도 AI 답변에서 **인용(cited)**되기를 원한다면, 이 둘은 별개의 결정 사항입니다.
검색은 점차 "열 개의 파란색 링크"에서 "몇 개의 인용이 포함된 하나의 합성된 답변"으로 변화하고 있습니다. 만약 당신이 인용 세트(citation set)에 포함되지 않는다면, 당신의 온페이지 SEO (on-page SEO)가 아무리 훌륭하더라도 그 세계에서는 보이지 않는 존재가 됩니다. 그리고 좋은 페이지가 인용되지 않는 가장 흔한 이유는 콘텐츠의 품질이 아니라, 소유자가 존재조차 몰랐던 robots.txt 충돌 때문이며, 이는 종종 누군가 한 번 설정하고 잊어버린 CDN 토글에 의해 삽입됩니다.
오늘 당신의 실제 robots.txt를 확인해 보세요. curl 명령어 한 번이면 충분합니다. 저처럼, 당신도 내내 빗장이 걸려 있던 문을 통해 크롤러들을 정중하게 초대하고 있었다는 사실을 발견하게 될지도 모릅니다.
저는 정직하고 실무적인 AI 도구 리뷰와 일일 AI 뉴스를 발행합니다. 이것이 도움이 된다면, 데일리 드롭(daily drop)은 텔레그램에서 확인하세요: t.me/aitoolsinsiderhq.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기