AI가 실제로 당신의 사이트를 인용하고 있을까? Google 순위가 측정할 수 없는 것을 측정하는 방법

저는 지난 몇 주 동안 LLMO(Large Language Model Optimization)에 대해 글을 써왔습니다. AI 검색 엔진에 의해 인용되는 방법, 어떤 콘텐츠 구조가 효과적인지, 그리고 Princeton의 GEO(Generative Engine Optimization) 연구가 가시성에 대해 무엇을 말하는지 등에 대해서 말이죠. 모두 유용한 내용들이었습니다. 하지만 한 가지 문제가 있었습니다. 이 모든 것들이 실제로 효과가 있는지 전혀 알 수 없었다는 점입니다. 저는 마치 레시피에 집착하면서 정작 음식 맛은 보지 않는 요리사와 같았습니다. 저의 Google Search Console은 완벽했습니다. 하지만 저의 LLMO 측정 설정은 어땠을까요? 저는 말 그대로 ChatGPT에 "내 사이트를 알고 있니?"라고 입력하고, 마치 짝사랑하는 사람이 내 게시물에 좋아요를 눌렀는지 확인하는 십 대처럼 페이지를 새로고침하고 있었습니다. LLMO를 측정하는 것은 진정으로 어려운 문제이며, 대부분의 사람들은 이를 전혀 수행하지 않고 있습니다. 제가 구축한 세 가지 측정 계층을 소개합니다. "비용이 전혀 들지 않는 방법"부터 "토요일 오후를 Python에 반납해야 하는 방법"까지 준비했습니다.

측정의 격차 (The Measurement Gap)
SEO(검색 엔진 최적화)에서 측정은 해결된 문제입니다. Google Search Console은 순위, 노출수, 클릭수, CTR(클릭률)을 매일 업데이트하며 무료로 보여줍니다. Ahrefs는 백링크 데이터를 추가해 줍니다. SEMrush는 키워드 추적 기능을 제공합니다. 모든 것이 가시적입니다.

반면 LLMO에서는 기본적으로 가시적인 것이 거의 없습니다. "AI Search Console" 같은 것은 존재하지 않습니다. ChatGPT는 "당신의 사이트가 47번 인용되었습니다!"라고 알려주는 주간 이메일을 보내주지 않습니다. Perplexity에는 크리에이터 대시보드가 없습니다. 변화의 핵심은 이것입니다. SEO에는 순위(1위부터 100위까지의 위치)가 있었지만, LLMO에는 이진적(binary) 결과가 존재합니다. 인용되거나, 되지 않거나 둘 중 하나입니다. 그리고 아무도 당신에게 어느 쪽인지 알려주지 않습니다. 이 격차는 단순한 불편함이 아닙니다. 측정할 수 없는 것은 개선할 수 없으며, 현재 대부분의 콘텐츠 크리에이터들은 눈을 가린 채 AI 가시성을 위해 최적화를 진행하고 있습니다.

계층 1: GA4 AI 추천 트래픽 (무료, 5분 소요)
오늘 바로 설정할 수 있는 가장 쉬운 측정 방법은 Google Analytics 4(GA4)에서 AI 추천 트래픽(AI referral traffic)을 추적하는 것입니다. AI 검색 엔진이 클릭 가능한 링크와 함께 당신의 사이트를 인용하고 누군가가 그 링크를 클릭하면, GA4는 해당 소스를 기록합니다.

제가 맞춤 채널 그룹 (custom channel group)에서 사용하는 정규 표현식 (regex) 패턴은 다음과 같습니다: chatgpt\.com|perplexity\.ai|claude\.ai|gemini\.google\.com|copilot\.microsoft\.com|deepseek\.com|you\.com|meta\.ai|poe\.com. 관리 (Admin) → 채널 그룹 (Channel Groups) → 만들기 (Create)로 이동하여, 이 정규 표현식을 세션 소스 필터 (session source filter)로 사용하는 새 채널을 추가하고 이름을 "AI Search"로 지정하세요. 그러면 모든 AI 플랫폼으로부터 유입되는 집계된 트래픽을 한눈에 즉시 확인할 수 있습니다.

몇 가지 알아두어야 할 사항이 있습니다:

ChatGPT는 협조적입니다. 2025년 말부터 ChatGPT는 외부 링크에 utm_source=chatgpt.com을 추가합니다. 따라서 ChatGPT 트래픽은 GA4에서 chatgpt.com / referral로 깔끔하게 나타납니다.

Perplexity는 괜찮은 편입니다. UTM 태그는 없지만, 트래픽이 perplexity.ai / referral로 나타납니다. 여전히 추적 가능합니다.

무료 버전 ChatGPT는 블랙홀과 같습니다. 무료 사용자들은 개인정보 보호 설정 때문에 리퍼러 (referrer) 데이터를 보내지 않는 경우가 많습니다. 이들의 클릭은 사용자가 직접 URL을 입력한 것과 구별할 수 없는 "Direct"로 표시됩니다.

여러분의 GA4 수치는 바닥(floor)이지 천장(ceiling)이 아닙니다. 전환 (conversion) 이야기가 시작되면 상황은 더욱 흥미로워집니다. 2026년의 업계 데이터에 따르면, 전통적인 Google 유기적 검색 (organic)의 전환율이 2-3%인 것에 비해 AI 리퍼럴 (referral) 트래픽의 전환율은 8-12%에 달합니다. AI 검색을 통해 유입된 사람들은 이미 조사를 마친 상태입니다. AI가 그들을 대신해 조사를 해주었기 때문입니다. 이들은 의사 결정 과정에서 훨씬 더 앞서 있습니다.

저는 3주 전부터 추적을 시작했습니다. 저의 AI 리퍼럴 트래픽은 아직 적지만 (일일 한 자릿수), 전환율은 유기적 검색 평균의 3배입니다. 표본은 작지만, 주목할 만한 신호입니다.

레이어 2: "5개의 AI에게 물어보기" 프로토콜 (무료, 월 30분 소요)

GA4는 누가 클릭해서 들어왔는지는 알려줍니다. 하지만 AI가 링크 없이 여러분을 언급하고 있는지, 혹은 아예 언급조차 하지 않고 있는지는 알려주지 않습니다. 이를 위해서는 직접 물어봐야 합니다. 저는 매월 첫 번째 월요일에 이 작업을 수행합니다:

1단계. 자신의 분야 (niche)와 관련된 10-15개의 프롬프트 (prompt)를 작성합니다. 저의 경우 "AI 검색 최적화를 위한 최고의 리소스는 무엇인가?", "어떻게 하면 ChatGPT가 내 사이트를 인용하게 만들 수 있는가?", "LLMO와 SEO의 차이점은 무엇인가?" 등이 포함됩니다.

2단계. 각 프롬프트를 5개의 플랫폼에서 실행합니다: ChatGPT, Perplexity, Gemini, Claude, 그리고 Copilot.

3단계. 플랫폼당 프롬프트별로 다음 네 가지 사항을 기록합니다: 언급되었는가? (Yes / No), 맥락 (추천 / 비교 / 중립 / 부정), 정보의 정확성, URL이 제공되었는가?

4단계. 인용률 (citation rate)을 계산합니다. 15개의 프롬프트 x 5개의 플랫폼 = 75번의 확인. 20번 언급되었다면? 그것은 26.7%입니다. 스프레드시트를 사용하면 약 30분 정도 소요됩니다. 수동적이고 지루한 작업이지만, 현재 존재하는 가장 신뢰할 수 있는 방법입니다. 자동화 도구가 이를 근사치로 계산할 수는 있지만, "그 언급이 긍정적이었는가, 아니면 단순히 스쳐 지나가는 참조였는가?"와 같은 미묘한 차이(nuance)를 복제할 수는 없습니다. 한 가지 주의할 점은 LLM의 응답은 비결정론적 (non-deterministic)이라는 것입니다. 동일한 프롬프트라도 날짜에 따라 다른 답변을 생성할 수 있습니다. 단 한 번의 확인은 통계적으로 유의미하지 않습니다. 이것이 제가 개별 데이터 포인트가 아닌 월간 트렌드를 추적하는 이유입니다. 3개월 정도의 데이터가 쌓여야 실제 패턴이 나타나기 시작합니다.

레이어 3: Python으로 자동화하기 (토요일 하루면 충분)
엔지니어라면 API 호출을 통해 이 수동 프로토콜을 자동화할 수 있습니다. OpenAI 및 Anthropic API에 쿼리 세트를 보내고, 응답에 귀하의 브랜드가 나타나는지 확인한 후, 결과를 시계열 (time series)로 기록하십시오. 핵심 로직은 간단합니다:

BRAND_VARIANTS = [ " your-site.com " , " Your Brand " , " yourbrand " ]
CHECK_QUERIES = [ " Best tools for [your category] " , " How to solve [problem you address] " , " [Your brand] vs [competitor] " , ]

def check_openai ( query : str ) -> dict :
client = OpenAI ()
response = client . chat . completions . create (
model = " gpt-4o " ,
messages = [{ " role " : " user " , " content " : query }],
temperature = 0.0 ,
)
answer = response . choices [ 0 ]. message . content
mentioned = any ( v . lower () in answer . lower () for v in BRAND_VARIANTS )
return {
" platform " : " ChatGPT " ,
" query " : query ,
" mentioned " : mentioned
}

이를 Claude 및 Perplexity로 확장하고, cron을 통해 매주 실행하여 CSV로 내보내십시오. 주당 약 0.50달러의 비용으로 귀하의 AI 가시성 점수 (AI visibility score)에 대한 시계열 데이터를 얻을 수 있습니다.

그 결과물: "LLMO(Large Language Model Optimization)가 효과가 있는 것 같아요"라고 말하는 대신, "구조화된 데이터 (structured data)를 추가한 후 가시성이 12%에서 28%로 올라갔습니다"라고 말할 수 있습니다. 숫자는 느낌을 이깁니다.

2026년 5월 기준 이용 가능한 도구들
직접 도구를 구축하는 것이 적성에 맞지 않는다면, 현재 여러 상용 플랫폼에서 AI 인용 (AI citations)을 추적하고 있습니다. Otterly.ai는 2024년 10월 출시 이후 10,000명 이상의 사용자를 확보하며 가장 빠르게 성장하고 있는 옵션입니다. 이 서비스는 ChatGPT, Perplexity, Google AI Overviews, 그리고 Copilot 전반에 걸쳐 귀하의 브랜드를 모니터링합니다. 키워드 수준의 인용 추적, 경쟁사 벤치마킹 (competitor benchmarking), 그리고 깔끔한 대시보드를 제공합니다.

Profound는 엔터프라이즈 (enterprise) 영역을 담당합니다. Ramp와 함께 진행한 사례 연구에 따르면, 한 달 만에 AI 가시성을 3.2%에서 22.2%로 끌어올렸는데, 이러한 결과는 예산 승인을 받아낼 수 있는 수준입니다. 규모가 큰 조직이라면 아마 이 서비스를 선택하게 될 것입니다.

Peec AI는 LLM 출력물 전반에 걸친 브랜드 언급 (brand mention) 분석에 집중합니다. 단순히 인용 여부를 넘어, 어떻게 인용되는지를 추적합니다. 즉, 귀하의 언급을 둘러싼 감성 (sentiment)이 어떠한지, 어떤 프롬프트 패턴 (prompt patterns)이 인용을 유도하는지를 파악합니다.

저의 솔직한 견해는 이렇습니다. 개인 크리에이터나 소규모 팀에게는 수동 프로토콜과 기본적인 Python 스크립트만으로도 비용 0%로 통찰력의 80%를 얻을 수 있습니다. 상용 도구는 여러 브랜드에 걸쳐 수십 개의 키워드를 추적해야 하고 팀 대시보드가 필요한 시점이 되어야 가치가 있습니다.

당신이 아마도 무시하고 있을 크롤러 신호 (Crawler Signal)
여기 대부분의 사람들이 놓치는 측정 관점이 있습니다. 바로 AI 크롤러 로그 (AI crawler logs)입니다. 귀하의 서버 액세스 로그 (server access logs)에는 이미 어떤 AI 시스템이 귀하의 콘텐츠를 방문하고 있는지 기록되어 있습니다. GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot, Google-Extended 등이 있습니다. 이들은 모두 User-Agent 문자열에서 자신을 식별합니다.

grep -E "GPTBot|ClaudeBot|PerplexityBot|Google-Extended" /var/log/nginx/access.log | awk '{print $7}' | sort | uniq -c | sort -rn

자주 크롤링되는 페이지는 AI 응답에 나타날 가능성이 더 높습니다. 전혀 크롤링되지 않는 페이지는 보이지 않는 상태와 같습니다. 이는 간접적인 신호이지만, AI 시스템이 완전히 건너뛰고 있는 콘텐츠를 찾아내는 데 매우 유용합니다.

제 자신의 로그를 확인해 본 결과, /blog/ 페이지가 /about/ 페이지보다 15배 더 많이 크롤링(crawled)되고 있다는 것을 발견했습니다. 놀라운 일은 아니지만, 그 격차가 예상보다 더 컸습니다.

측정 습관 기르기

행동이 없는 측정은 단순한 데이터 수집(data hoarding)에 불과합니다. 제가 실행하는 사이클은 다음과 같습니다:

주간 (10분): GA4 AI 추천(referral) 대시보드를 확인합니다. 급증하거나 급감한 지점을 기록합니다. 전주 대비(week-over-week) 비교를 수행합니다.
월간 (30분): 5개 플랫폼 수동 프로토콜을 실행합니다. 인용률(citation rate)을 계산합니다. 크롤러 로그를 스캔하여 새로운 패턴을 찾습니다.
분기별 (1시간): 전체 검토를 수행합니다. 쿼리 세트(query set)를 업데이트합니다. 인용률 추세를 비교합니다. 콘텐츠 변경이 측정 가능한 결과를 만들어냈는지 확인합니다.

더 공식적인 방법론을 원한다면 LLMO 프레임워크(LLMO Framework)가 KPI 설계에 대한 구조화된 접근 방식을 제공합니다. 저는 다양한 성장 단계에서 어떤 지표가 가장 중요한지 결정할 때 이를 참조합니다.

핵심 요약 (The Punchline)

저는 3주 전부터 저의 LLMO 가시성을 측정하기 시작했습니다. 5개 플랫폼 전체에서의 저의 인용률은 14%입니다. 아주 좋지도 않지만, 아주 나쁘지도 않은 수치입니다. 하지만 중요한 점은 제가 그 수치를 알고 있다는 것이며

AI가 실제로 당신의 사이트를 인용하고 있을까? Google 순위가 측정할 수 없는 것을 측정하는 방법

요약

핵심 포인트

측정 습관 기르기

핵심 요약 (The Punchline)

댓글