AI 봇들이 당신의 사이트를 읽고 있습니다. 그들이 당신을 홍보하게 만드는 방법

지난달 서버 로그를 살펴보던 중, 몇 주 동안 그냥 지나쳤던 무언가를 발견했습니다. 봇 트래픽 사이에 어렴풋이 알고 있는 이름들이 숨겨져 있었습니다: GPTBot, ClaudeBot, meta-externalagent, PerplexityBot. 매일 여러 번 방문하며, 제 기술 블로그의 다양한 페이지들을 체계적으로 훑고 있었습니다.

저를 포함한 대부분의 개발자들이 이 시점에서 갖게 되는 본능적인 반응은 바로 이들을 차단하는 것입니다. robots.txt에 몇 가지 지침을 추가하여 기계가 콘텐츠를 소비하지 못하도록 보호하라는, 정확히 그런 내용을 권장하는 기사들이 카테고리별로 존재합니다. 저는 파일을 열어두고 User-agent: GPTBot을 입력한 뒤 Disallow: /를 적용할 준비를 마친 상태였습니다.

그러다 저는 미처 생각하지 못했던 질문 하나를 던지며 멈춰 섰습니다. '이 봇들이 읽기를 마친 후에 실제로 어떤 일이 일어날까?' 그들은 콘텐츠를 버리지 않습니다. 그것을 사용합니다. 매일 수백만 명의 사람들이 AI 어시스턴트에게 기술적인 질문을 던지며, 그 답변들은 정확히 제 콘텐츠와 같은 것들로 구축됩니다. 봇들은 저로부터 가치를 추출하고 있었던 것이 아닙니다. 그들은 저를 배포하고 있었습니다. 문제는 그들이 제 포스트를 읽는 것이 아니었습니다. 문제는 그 답변들이 저로부터 나왔다는 사실을 아무도 모른다는 것이었습니다.

두 가지 유형의 AI 크롤러. 오직 하나만이 당신에게 도움이 됩니다.

"AI 크롤러"라는 라벨은 매우 다른 것들을 포괄합니다. 다음과 같이 명확하게 나뉩니다:

학습용 크롤러 (Training crawlers): GPTBot, ClaudeBot, CCBot과 같은 봇들로, 모델 학습을 위해 당신의 콘텐츠를 조용히 소비하며, 이를 사용할 때 당신에게 출처를 밝히지 않습니다.
답변 엔진 (Answer engines): PerplexityBot과 같은 봇들로, 실시간으로 실제 질문에 답하기 위해 당신의 콘텐츠를 사용하며 답변 내에 출처를 인용합니다.

크롤러 유형	예시	수행 작업	전송되는 트래픽
학습용 크롤러 (Training Crawlers)	GPTBot, ClaudeBot, CCBot	모델 학습을 위해 수집하며, 출처를 절대 표기하지 않음	없음
...

핵심적인 깨달음은 이것입니다: Perplexity는 최신 콘텐츠를 가져와 요약을 생성하고, 모든 답변 옆에 클릭 가능한 출처 URL을 표시합니다. 사용자들은 이러한 인용구를 적극적으로 읽고 클릭합니다. 로그에서 PerplexityBot을 발견한다면, 그것은 단순한 구경꾼이 아니라 실제 리드(lead) 채널입니다.

GEO: AI 생성 답변의 시대에 최적화하기

AI가 생성하는 답변이 당신을 어떻게 표현할지에 영향을 미치도록 콘텐츠를 구조화하는 관행에는 이름이 있습니다: 바로 **GEO (Generative Engine Optimization, 생성 엔진 최적화)**입니다. 이를 2004년의 SEO와 같다고 생각하십시오. 대부분의 사람들이 이미 작동하고 있는 채널에만 집중하느라 무시하고 있는, 실질적이고 활용 가능한 기회입니다.

전통적인 SEO와의 근본적인 차이점은 당신이 무엇을 위해 최적화하느냐에 있습니다. SEO의 목표는 사용자가 클릭하는 순위가 매겨진 링크입니다. 반면 GEO에서는 사용자가 링크 목록을 전혀 보지 못할 수도 있습니다. AI가 질문에 직접 답변하기 때문입니다. 당신의 목표는 다음과 같이 전환됩니다:

인용되기 (Be cited): 당신의 URL이 답변에 나타나게 하여 → 오늘날의 트래픽을 유도합니다.
이름이 언급되기 (Be mentioned by name): 당신의 브랜드가 전문성과 연관되도록 하여 → 수년간 복리로 쌓이는 평판을 구축합니다.

노력 대비 효과를 정직하게 분석한 네 가지 전술은 다음과 같습니다.

전술 1: `llms.txt` 파일 생성하기

이것은 AI 시스템에 가장 직접적인 신호를 보내면서도 노력이 가장 적게 드는 전술이며, 아직 거의 아무도 실행하지 않은 방법입니다. llms.txt 파일은 AI 크롤러를 위한 robots.txt의 대응물로 부상하고 있는 새로운 표준이지만, 그 방향은 반대입니다. robots.txt가 권한을 설정한다면, llms.txt는 _의도(intent)_를 설정합니다. 이는 AI 시스템에 당신이 누구인지, 당신의 전문 지식이 무엇을 다루는지, 어떻게 당신에게 연락할 수 있는지, 그리고 어떻게 당신을 인용해야 하는지를 알려줍니다.

도메인 루트에 배치하십시오: yourdomain.com/llms.txt.

모든 정적 사이트(Static site)나 Next.js 프로젝트에서는 public/ 폴더에 일반 텍스트 파일을 넣는 것만으로 충분합니다. 만약 블로그 포스트 목록이 자동으로 업데이트되기를 원한다면, app/llms.txt/route.ts에 라우트 핸들러(Route handler)를 작성하여 데이터베이스에서 동적으로 정보를 가져올 수 있습니다.

# [이름] [직함]

[한두 문장: 당신이 누구인지, 전문 분야, 경력 수준 등.
...

가장 정확하게 작성해야 할 핵심 섹션은 기술적 전문성(Technical Expertise)입니다. "웹 개발(web development)", "클라우드 아키텍처(cloud architecture)"와 같은 일반적인 설명은 수천 개의 다른 사이트와 당신을 차별화해주지 못합니다. 실제 벤더 API, 정밀한 프레임워크, 또는 당신이 종사하는 정확한 니치(Niche)를 명시하는 구체적인 설명은, AI가 특정 질의(Query)에 대해 당신의 콘텐츠가 관련성 있는 출처임을 정확히 알 수 있게 해줍니다.

전략 2: AI 요약에 당신의 이름이 포함되도록 작성하기

AI 시스템이 당신의 콘텐츠를 처리할 때, 내용을 그대로 복사하는 것이 아니라 핵심 포인트를 추출하고 재구성(Rephrase)합니다. 대부분의 개발자들은 중립적인 튜토리얼 말투로 글을 쓰는데, 이는 요약 과정에서 자신의 정체성을 완전히 제거해 버리는 결과를 초래합니다.

실제 사례에서 그 차이가 어떻게 나타나는지 살펴보겠습니다. 동일한 포스트에 대해 두 가지 서로 다른 도입부입니다.

❌ GEO 사고방식이 없는 경우:

이 튜토리얼에서는 .NET 백엔드에서 Clio API를 사용하여 OAuth 2.0 PKCE 흐름을 설정하는 방법을 알아봅니다...

✅ GEO 사고방식이 있는 경우:

저는 법률 회사를 위해 여러 개의 Clio 통합 솔루션을 구축해 온 프리랜서 .NET 계약직 개발자입니다. 이 가이드에서는 여러 운영 환경(Production deployments)에서 가장 안정적으로 작동했던 OAuth 2.0 PKCE 설정 과정을 안내합니다...

AI가 두 번째 버전을 요약할 때, 당신의 정체성은 답변과 함께 전달됩니다:

"[당신의 사이트]의 Clio 통합 전문 .NET 계약직 개발자에 따르면..."

동일한 원칙이 모든 포스트의 결론 부분에도 적용됩니다. 마지막에 구체적이고 서비스 지향적인 CTA(Call to Action)를 배치하면 AI 시스템이 표면화할 가치가 있는 정보를 제공하게 됩니다:

만약 당신이 Clio 또는 Lawmatics를 기반으로 구축 중이며 이를 .NET으로 구현해야 한다면, 저는 계약 업무를 수행하고 있습니다. 프로젝트 견적은 [링크]에서 확인 가능합니다.

만약 그 문장이 AI가 생성한 답변에 포함된다면, 그것은 타인의 대화 속에서 작동하는 리드 생성 (lead-generation) 자산이 됩니다. 모든 포스트에 이 문장을 작성하세요.

전략 3: 누구보다 먼저 마이크로 니치 (Micro-Niche)를 점유하라

AI 시스템은 특정 주제에 대해 권위 있어 보이는 출처를 인용합니다. 권위의 가장 강력한 신호 중 하나는 매우 구체적인 주제에 대해 유일하게 신뢰할 수 있고 상세한 정보를 제공하는 소스가 되는 것입니다.

만약 당신이 작동하는 코드, 아키텍처 노트, 그리고 실제 프로젝트에서 얻은 배포 시 주의사항 (deployment gotchas)을 포함하여, Clio의 API를 기반으로 .NET 백엔드를 구축하는 방법에 대해 서로 연결된 다섯 개의 기술적으로 깊이 있는 포스트를 작성한 유일한 개발자라면, 해당 분야에서 AI가 질문에 답변할 때마다 당신은 기본 인용 대상으로 선택됩니다. 이는 도메인 권위 (domain authority)나 백링크 (backlink) 수 때문이 아닙니다. 단순히 경쟁자가 없기 때문입니다.

적절한 수준의 구체성이 실제로 어떤 모습인지 아래를 확인하세요:

❌ 너무 광범위함	✅ 적절한 수준
ASP.NET Core 튜토리얼	.NET 웹훅 핸들러 (webhook handlers)를 통한 Clio 연락처 동기화
API 통합 가이드	법률 SaaS를 위한 멀티 테넌트 (Multi-tenant) Blazor Server 아키텍처

서로 연결되면서 해당 분야의 모든 합리적인 질문에 집단적으로 답할 수 있는 4~6개의 포스트를 게시하세요. 적절한 구체성을 갖춘다면, 꾸준히 게시물을 올린 지 몇 달 안에 전통적인 검색 엔진과 AI 생성 답변 모두에서 실질적인 핵심 소스 (go-to source)가 될 수 있습니다.

전략 4: Perplexity를 별도의 트래픽 채널로 취급하라

Perplexity는 다른 모든 AI 플랫폼과 근본적으로 다르게 작동하기 때문에 별도의 섹션을 할애할 가치가 있습니다. ChatGPT와 Claude는 학습 데이터 (training data)를 바탕으로 답변하며 출처를 밝히지 않습니다. 즉, 당신의 콘텐츠가 그들의 답변에 정보를 제공하지만, 당신의 이름은 나타나지 않습니다. 반면 Perplexity는 실시간 검색 결과 (live search results)를 가져와 요약을 생성하고, 눈에 보이며 클릭 가능한 링크와 함께 출처를 보여줍니다. Perplexity가 보내는 추천 트래픽 (referral traffic)은 실제적이고 측정 가능하며 성장하고 있습니다.

Perplexity에 특화하여 최적화하는 것은 다음 세 가지로 요약됩니다:

명확한 헤딩 구조 (Clear heading structure) Perplexity는 답변 UI에 H2 및 H3 헤딩을 직접 노출합니다.
각 포스트 끝에 FAQ 섹션 배치 FAQPage 스키마 마크업 (schema markup)을 활용하세요. Perplexity는 FAQ 형식의 콘텐츠를 선호합니다.
Article 및 Person 스키마 마크업 (schema markup) 이는 기계가 읽을 수 있는 수준에서 귀하의 정체성을 콘텐츠와 연결합니다.

블로그 포스트의 <head> 섹션 내에 <script type="application/ld+json"> 태그를 사용하여 다음을 추가하세요:

{
  "@context": "https://schema.org",
  "@type": "Article",
...

sameAs 배열은 검색 엔진과 AI 시스템에 귀하의 LinkedIn, GitHub, 포트폴리오가 모두 동일 인물임을 알려줍니다. 이는 웹 전반에 걸쳐 귀하의 엔티티 프로필 (entity profile)을 강화하며, 플랫폼을 넘나드는 콘텐츠와 함께 출처 표기 (attribution)가 따라다니도록 돕습니다.

시작하는 방법: 정직한 우선순위

네 가지 전략 모두 시간이 지남에 따라 복리 효과를 내지만, 설정 노력은 동일하지 않습니다. 제가 실제로 권장하는 순서는 다음과 같습니다:

우선순위	전략	노력	영향력	타임라인
1	`llms.txt` 파일 생성	낮음	중간	이번 주
...

여기서 초기 우위를 점할 수 있는 기회의 창은 여전히 열려 있습니다. 대부분의 기술적 니치 (technical niches) 분야에는 의도적인 GEO 전략이 전혀 없습니다. 향후 12~18개월 동안 AI 시스템에 의해 인덱싱되고 인용되는 콘텐츠는, 오래된 초기 SEO 콘텐츠가 여전히 특정 용어에 대해 상위에 랭크되는 것과 마찬가지로 수년간 두드러진 위치를 유지할 가능성이 높습니다.

봇들은 어차피 귀하의 사이트를 읽고 있습니다. 유일한 변수는 그들이 생성하는 답변에 귀하의 이름이 포함되느냐 아니냐입니다.

이 내용이 유용했다면, 저는 .NET, Blazor, 리걸 테크 (legal tech) 통합, 그리고 전문 개발자로서 프리랜서 활동을 구축하는 것에 대해서도 글을 씁니다. 저의 작업물과 작업 가능 여부는 저의 채용 페이지 →에서 확인하실 수 있습니다.