내 robots.txt를 직접 감사해 보니 Cloudflare가 원하는 AI 크롤러들을 차단하고 있었다

며칠 전, 내 사이트가 AI 답변에 거의 노출되지 않는 이유를 알아내려고 노력했습니다. 저는 독립적인 AI 도구 리뷰 사이트를 운영하는데, ChatGPT, Perplexity, Gemini 등으로부터 인용되는 것이 사실상 제 전체 배포 전략입니다. 그래서 당연하게도 저 자신의 robots.txt 파일을 읽어보았습니다. 제가 발견한 것은 민망했고, 알고 보니 이는 매우 흔한 일이었습니다.

내 리포지토리에 있던 파일과 서버에 있는 파일은 달랐다

제 리포지토리에는 AI 크롤러들을 명시적으로 환영하는 수동으로 작성된 robots.txt가 있었습니다:

User-agent: GPTBot
Allow: /

...

기분이 좋았습니다. 매우 GEO 친화적이었죠. 문제는, 제 서버가 실제로 크롤러들에게 제공했던 robots.txt는 완전히 다른 파일이었다는 것입니다:

# BEGIN Cloudflare Managed content
User-agent: *
Content-Signal: search=yes,ai-train=no,use=reference
...

제가 공들여 작성한 어떤 Allow 규칙도 단 하나의 크롤러에게 도달하지 못했습니다. Cloudflare는 관리형

콘텐츠를 학습 데이터 세트에서 제외하면서도 AI 답변에서 **인용(cited)**되기를 원한다면, 이 둘은 별개의 결정 사항입니다.

검색은 점차 "열 개의 파란색 링크"에서 "몇 개의 인용이 포함된 하나의 합성된 답변"으로 변화하고 있습니다. 만약 당신이 인용 세트(citation set)에 포함되지 않는다면, 당신의 온페이지 SEO (on-page SEO)가 아무리 훌륭하더라도 그 세계에서는 보이지 않는 존재가 됩니다. 그리고 좋은 페이지가 인용되지 않는 가장 흔한 이유는 콘텐츠의 품질이 아니라, 소유자가 존재조차 몰랐던 robots.txt 충돌 때문이며, 이는 종종 누군가 한 번 설정하고 잊어버린 CDN 토글에 의해 삽입됩니다.

오늘 당신의 실제 robots.txt를 확인해 보세요. curl 명령어 한 번이면 충분합니다. 저처럼, 당신도 내내 빗장이 걸려 있던 문을 통해 크롤러들을 정중하게 초대하고 있었다는 사실을 발견하게 될지도 모릅니다.

저는 정직하고 실무적인 AI 도구 리뷰와 일일 AI 뉴스를 발행합니다. 이것이 도움이 된다면, 데일리 드롭(daily drop)은 텔레그램에서 확인하세요: t.me/aitoolsinsiderhq.

Insights

내 robots.txt를 직접 감사해 보니 Cloudflare가 원하는 AI 크롤러들을 차단하고 있었다

요약

핵심 포인트

내 리포지토리에 있던 파일과 서버에 있는 파일은 달랐다

댓글

왜 당신의 AI Agent에게 메모리 플라이휠(Memory Flywheel)이 필요한가: MemFlywheel 소개

미국의 개인정보 비상사태

miniF2F를 포화시킨 Leanstral 1.5가 실제 코드에서 미보고 버그 5건을 발견하다

왜 당신의 AI Agent에게 메모리 플라이휠(Memory Flywheel)이 필요한가: MemFlywheel 소개

미국의 개인정보 비상사태

miniF2F를 포화시킨 Leanstral 1.5가 실제 코드에서 미보고 버그 5건을 발견하다