SEO를 포기한 후 내 페이지들이 Perplexity에 나타나기 시작한 이유

원문은 AIdeazz에 게시되었습니다 — 정식 링크(canonical link)와 함께 이곳에 교차 게시되었습니다.

Perplexity가 무작위 Medium 포스트를 인용하는 동안 나의 기술 콘텐츠는 무시하는 것을 18개월 동안 지켜본 끝에, 나는 그 이유를 발견했습니다. 나는 AI가 실제로 웹을 읽는 방식이 아니라, Google에 맞춰 최적화하고 있었습니다. 해결책은 스키마 마크업 (schema markup)부터 인용 형식, 저자성 (authorship)을 제시하는 방식에 이르기까지 모든 것을 재구조화하는 것이었습니다. 실제로 성과를 냈던 방법들을 소개합니다.

47,000달러짜리 경종

나의 Oracle Cloud 인프라 관련 포스트들은 월간 3,000회 이상의 검색을 기록하고 있었습니다. 하지만 Perplexity의 답변에는 단 한 번도 나타나지 않았습니다. 반면, 동일한 주제에 대한 Reddit의 두 문단짜리 댓글은 지속적으로 등장했습니다. 차이점은 품질이 아니라 구조였습니다.

나는 Oracle Cloud 배포를 언급하는 100개의 Perplexity 응답을 추적했습니다. 73%가 다음과 같은 방식으로 출처를 인용했습니다:

JSON-LD 구조화된 데이터 (structured data) (단순한 메타 태그가 아님)
검증 가능한 자격 증명을 가진 저자 엔티티 (Author entities)
학술적 형식의 인라인 인용 (Inline citations)
ISO 8601 형식의 발행 날짜

내 포스트에는 이 중 어느 것도 없었습니다. 그것들은 인간과 Google의 2019년 알고리즘에 최적화되어 있었습니다.

진정한 비용은 트래픽이 아니라 신뢰도였습니다. 세 곳의 잠재적인 기업 고객들은 AI 검색에서 내 스택에 관한 "권위 있는 출처를 찾을 수 없었다"고 언급했습니다. 그들은 말 그대로 나의 정확한 솔루션을 Perplexity에 입력하고 있었지만, 대신 경쟁사의 콘텐츠를 받고 있었던 것입니다.

생성형 엔진 최적화 (GEO): 구조가 키워드를 이긴다

전통적인 SEO는 키워드를 매칭하는 크롤러 (crawlers)에 맞춰 최적화합니다. 생성형 엔진 최적화 (Generative engine optimization, GEO)는 답변을 합성하는 LLM (대규모 언어 모델)을 위해 콘텐츠를 구조화합니다. 이 차이는 근본적입니다.

Google은 관련 키워드가 포함된 포괄적인 콘텐츠에 보상을 줍니다. Perplexity는 명확한 출처 표기가 있는 원자적 사실 (atomic facts)에 보상을 줍니다. 나의 Apache Kafka 포스트에서 가져온 예시입니다:

이전 (SEO 최적화 버전):

Oracle Cloud에서 Kafka를 구현하면 실시간 데이터 스트리밍 (real-time data streaming)을 위한 뛰어난 처리량 (throughput)을 제공하여, 조직이 최소한의 지연 시간 (latency)으로 수백만 개의 이벤트를 처리할 수 있게 합니다...

이후 (GEO 구조화 버전):

Oracle Cloud Kafka 배포 지표 (2024-01-15 측정):
- 처리량 (Throughput): BM.Standard2.52에서 초당 1.2M 메시지
- 지연 시간 (Latency): 3-노드 클러스터에서 p99 = 12ms
...

두 번째 버전은 AI 응답에 나타납니다. 첫 번째 버전은 나타나지 않습니다.

실제로 중요한 구조화된 데이터 (Structured Data)

모두가 기본적인 스키마 마크업 (schema markup)을 추가합니다. 하지만 생성형 엔진 (generative engines)에게 그것만으로는 충분하지 않습니다. 제 콘텐츠가 마침내 인용될 수 있었던 JSON-LD 구조는 다음과 같습니다:

{
  "@context": "https://schema.org",
  "@type": "TechArticle",
...

표준 SEO 스키마와의 주요 차이점:

sameAs가 검증 가능한 프로필(실제 코드가 포함된 GitHub, 학술적 신뢰성을 위한 ORCID)로 연결됨
명시적인 citation 배열 사용 — 단순히 인라인 링크만 사용하는 것이 아님
proficiencyLevel (숙련도 수준) 및 dependencies (의존성) 포함 — LLM은 전문가 콘텐츠에 더 높은 가중치를 부여함
시간대 (timezone)를 포함한 정확한 타임스탬프 (timestamps)

인용 형식: 학술적 스타일의 승리

학술 논문으로 학습된 LLM은 학술적 인용 형식을 선호합니다. 저는 20개의 기사를 대상으로 세 가지 형식을 A/B 테스트했습니다:

형식 A (블로그 스타일): "Oracle의 문서에 따르면..."

Perplexity 응답 20개 중 2개에서 나타남

형식 B (인라인 인용): "Oracle의 문서에 따르면[^1]..."

Perplexity 응답 20개 중 7개에서 나타남

형식 C (저자-날짜 방식): "멀티 에이전트 시스템 (Multi-agent systems)은 최소 4개의 vCPU가 필요합니다 (Oracle, 2024)[^oracle-2024]"

Perplexity 응답 20개 중 16개에서 나타남

승리한 형식은 다음을 포함합니다:

구체적인 주장(claim)을 먼저 제시
괄호 안에 출처 표기
Markdown 각주 참조 (footnote reference)
문서 끝에 전체 인용 (full citation) 제공

제 Groq 라우팅 기사에서 가져온 예시입니다:

Groq의 추론 (inference) 비용은 Llama 3.1 70B 기준 100만 토큰당 $0.10입니다 (Groq, 2024)[^groq-pricing], 이는 Claude 3.5 Sonnet의 $3.00 (Anthropic, 2024)[^anthropic-pricing]와 비교됩니다.
...

저자 표시 (Bylines)를 넘어선 저자성 신호 (Authorship Signals)

단순한 저자 표시(Byline)만으로는 충분하지 않습니다. 생성형 엔진(Generative engines)은 다음과 같은 여러 신호를 통해 저자성을 검증합니다:

플랫폼 전반에 걸친 일관된 엔티티 (Consistent entity): 저의 GitHub 커밋, LinkedIn 게시물, 그리고 기사의 저자 표시는 모두 "Elena Revicheva"를 사용합니다. "E. Revicheva"나 "Elena R."가 아닙니다. 이는 사소해 보일 수 있지만, 엔티티 인식 (Entity recognition) 측면에서 매우 중요합니다.
소유권을 통한 도메인 권위 (Domain authority): aideazz.xyz(제 도메인)에 올린 콘텐츠는 제가 Dev.to에 올린 동일한 콘텐츠보다 더 많이 인용됩니다. 2022년부터 일관된 소유권을 보여주는 WHOIS 기록이 분명히 영향을 미치는 것으로 보입니다.
전문성에 대한 기술적 증거 (Technical proof of expertise): 이제 모든 기사는 다음 항목들을 링크합니다:
- 작동하는 코드가 포함된 실제 GitHub 리포지토리 (Repo)
- (아무리 최소한이라도) 라이브 데모 (Live demo)
- 실제 배포 환경에서의 성능 지표 (Performance metrics)
업데이트 타임스탬프 (Update timestamps): 모든 기술 지침에 "최종 확인 날짜: [날짜]"를 추가합니다. 업데이트된 콘텐츠는 오래된 게시물보다 3배 더 많이 인용됩니다.

실질적인 변화를 이끌어낸 구현 세부 사항 (Implementation Details)

모든 기술 콘텐츠에 걸쳐 제가 체계적으로 변경한 사항은 다음과 같습니다:

페이지 구조 (Page structure):

<article itemscope itemtype="https://schema.org/TechArticle">
  <h1 itemprop="headline">Oracle Cloud에 멀티 에이전트 시스템 배포하기</h1>

...

효과적인 콘텐츠 패턴:

문단의 시작을 결론으로 두고, 그 뒤에 설명을 덧붙일 것
범위가 아닌 정확한 숫자를 사용할 것 ("$800-900" 대신 "$847")
에러 메시지를 있는 그대로(Verbatim) 포함할 것
정제된 버전이 아닌 실제 명령어 출력값(Command output)을 보여줄 것

효과가 없었던 것들:

FAQ 스키마 (Schema) (Perplexity가 완전히 무시함)
비디오 임베드 (Video embeds) (적절하게 인용될 수 없음)
코드 구문 강조 (Code syntax highlighting) (일반 코드 블록이 더 나은 성능을 보임)
여러 페이지로 나뉜 기사 (Single long pages가 더 많이 인용됨)

중요한 지표 측정하기: 트래픽 그 이상

SEO 지표는 생성형 엔진에서의 성공을 포착하지 못합니다. 저는 다음을 추적합니다:

인용 출현 (Citation appearances): 내 도메인이 Perplexity, Claude, Gemini의 응답에 포함되는지 매일 확인하는 커스텀 스크립트 (Custom script)
인용 품질 (Citation quality): 전체 인용 (Full citation) vs 도메인 언급 (Domain mention) vs 의역 (Paraphrase)
쿼리 관련성 (Query relevance): 어떤 검색 의도 (Search intents)가 내 콘텐츠를 트리거하는가
경쟁적 대체 (Competitive displacement): 내 콘텐츠가 이전의 인용들을 대체할 때

지난 30일간의 실제 수치:

AI 엔진 전반에서 147회 인용 (3회에서 증가)
출처 표기가 포함된 전체 문단 인용 31회
"Oracle Cloud AI deployment" 쿼리에 대해 89% 출현
Medium 아티클 12개와 Stack Overflow 답변 7개를 대체

비즈니스 영향: 두 곳의 엔터프라이즈 리드 (Enterprise leads)가 Perplexity를 통해 내 콘텐츠를 발견했다고 명시적으로 언급했습니다. 그중 한 곳은 현재 월 4,000달러 규모의 고객입니다.

지속 가능한 콘텐츠에 관한 불편한 진실

ChatGPT가 출시되었을 때, 내가 SEO를 위해 최적화했던 모든 것은 하룻밤 사이에 가치가 없어졌습니다. 내가 생성형 엔진 (Generative engines)을 위해 최적화하고 있는 모든 것 또한 다음 패러다임이 전환될 때 아마 깨질 것입니다.

유일하게 지속 가능한 전략은 다음과 같습니다: 인프라를 소유하고, URL을 제어하며, 지식을 가능한 한 가장 기계 판독 가능한 (Machine-readable) 형식으로 구조화하는 것입니다. 오늘날 그것은 JSON-LD와 학술적 인용 (Academic citations)입니다. 내일은 다른 무언가가 될 수도 있습니다.

하지만 원칙은 그대로 유지됩니다:

미사여구보다 사실 (Facts over fluff)
익명성보다 출처 표기 (Attribution over anonymity)
스타일보다 구조 (Structure over style)
플랫폼 도달 범위보다 소유권 (Ownership over platform reach)

최적화 이전인 2022년의 내 Oracle Cloud 튜토리얼들은 AI 인용이 전혀 없습니다. 하지만 적절한 스키마 (Schemas)와 인용을 사용하여 구조를 재조정한 동일한 콘텐츠는 지속적으로 나타납니다. 구조를 재조정하는 데 들인 노력은 40시간이었습니다. 그 보상은 복리로 돌아옵니다.

하나의 핵심 콘텐츠 (Cornerstone content)로 시작하세요. 적절한 구조화된 데이터 (Structured data)를 추가하세요. 인용을 학술적인 형식으로 구성하세요. 30일 동안 인용을 추적하세요. 그런 다음 나머지 콘텐츠를 재조정할 가치가 있는지 결정하세요.

자주 묻는 질문 (Frequently Asked Questions)

Q: 이 모든 구조를 위해 가독성을 희생해야 하나요?
A: 아니요. 눈에 보이는 콘텐츠의 가독성은 유지됩니다. 구조는 독자들이 결코 볼 수 없는 HTML 속성(Attributes)과 JSON-LD 블록 내에 존재합니다. 실제로 이러한 변경 사항을 적용한 후 콘텐츠의 스캔 가능성(Scannability)이 높아져 이탈률(Bounce rate)이 12% 감소했습니다.

Q: 생성형 엔진 최적화 (GEO, Generative Engine Optimization)의 ROI(투자 대비 수익) 타임라인은 어떻게 되나요?
A: 적절한 구조를 갖추어 재게시한 후 72시간 이내에 첫 인용(Citations)이 나타났습니다. 지속적인 노출에는 2~3주가 소요되었습니다. 비즈니스 영향(실제 리드 생성)은 6주 차부터 시작되었습니다. 전통적인 SEO보다 훨씬 빠릅니다.

Q: 여러 AI 엔진에 걸친 인용을 어떻게 효율적으로 추적하나요?
A: 공식 API를 사용할 수 있는 곳은 Python 스크립트를 사용하고, 그렇지 않은 곳은 브라우저 자동화(Browser automation)를 사용합니다. 매일 새벽 3시에 실행되며, 새로운 인용이 발생하면 Telegram 알림을 보냅니다. 총 모니터링 비용은 컴퓨팅 시간 기준으로 월 12달러입니다.

Q: 기술적이지 않은 콘텐츠에도 효과가 있나요?
A: 테스트 결과 학술적 및 기술적 콘텐츠가 가장 큰 혜택을 보는 것으로 나타났습니다. 라이프스타일 콘텐츠는 개선 효과가 미미합니다. B2B 마케팅 콘텐츠는 그 중간 단계에 위치합니다. 구조가 도움이 되기는 하지만, 기술 문서(Technical documentation)만큼 혁신적인 변화를 일으키지는 않습니다.

Q: 왜 단순한 링크 연결 대신 학술적 인용 형식을 사용하나요?
A: LLM(대규모 언어 모델)은 공식적인 인용이 포함된 학술 논문을 집중적으로 학습합니다. 익숙한 패턴을 사용하면 정확한 출처 표기(Attribution) 확률이 높아집니다. 제 테스트 결과, 일반 하이퍼링크(Hyperlinks)를 사용할 때보다 저자-날짜(Author-date) 형식을 사용할 때 인용률이 8배 더 높았습니다.

— Elena Revicheva · AIdeazz · Portfolio