
동일한 사이트를 7개의 AI 인용 트래커에 입력해 보았습니다. 결과는 7개 모두 다른 수치를 보고했습니다.
요약
7개의 AI 인용 트래커를 대상으로 동일한 사이트와 쿼리를 사용하여 성능을 비교한 실험 결과입니다. 측정 도구 간의 인용 횟수 차이가 최소 4배에서 최대 8.2배까지 발생하는 극심한 불일치를 확인했습니다.
핵심 포인트
- 7개 AI 인용 트래커 간 측정 수치 차이가 최대 8.2배 발생
- 도구별로 측정 방식과 데이터 정직도에 큰 차이가 있음
- 직접 만든 Python 스크립트(OpenAI, Anthropic, Perplexity API) 결과는 중간 수준
- 가장 저렴한 Otterly AI가 가장 낮은 수치를 보고함
저는 7개의 인용 트래커(citation trackers)가 아마도 20% 정도의 차이를 보일 것이라고 예상했습니다. 제가 발견한 가장 작은 격차는 4배였고, 가장 큰 격차는 8배였습니다. 동일한 사이트, 동일한 15일, 동일한 12개의 브랜드 쿼리(brand queries)를 사용했습니다.
제가 가장 좋아하게 된 트래커는 가장 저렴한 것이었습니다. 그것이 가장 정확해서가 아닙니다. 실제로 무엇을 측정하고 있는지에 대해 가장 정직했기 때문입니다.
설정 (The setup)
저는 kenimoto.dev를 4개 언어로 운영하고 있으며, 몇 달 동안 한 가지 질문에 대한 답을 찾으려 노력해 왔습니다. 'AI 검색이 실제로 내 사이트를 보고 있는가?' 주요 AI 인용 트래커들의 무료 체험(Free trials)과 스타터 플랜(starter plans) 안내가 제 편지함에 쌓여가고 있었습니다. 그래서 저는 동일한 입력값에 대해 이 모든 도구들을 한꺼번에 실행하고 비교해 보았습니다.
제가 스스로 세운 규칙은 다음과 같습니다:
- 하나의 사이트: kenimoto.dev (
/ja/,/pt/,/es/서브트리 포함). - 하나의 기간: 2026년 5월 1일부터 5월 15일까지. 15일간.
- 12개의 브랜드 쿼리(brand queries): 한 번 작성하여 모든 도구에 전달했습니다.
사용된 7가지 도구는 다음과 같습니다: Profound (월 $499 라이트 티어, 엔터프라이즈 중심, SOC 2 / HIPAA 준수), Peec AI (월 약 €89, 베를린 소재, 다국어 지원, 115개 이상의 언어), Otterly AI (월 $29, 가장 저렴함, Semrush 연동), Bluefish AI (엔터프라이즈 견적 전용, Fortune 500 타겟), Scrunch (중급 가시성 트래커), Semrush AI Toolkit (Semrush SEO 제품군에 포함), 그리고 직접 만든 Python 스크립트 (OpenAI, Anthropic, Perplexity API 사용, API 호출 비용 월 약 $8).
저는 kenimoto.dev를 각 도구에 입력하고, UI가 허용하는 한 동일한 12개의 쿼리를 설정한 뒤, 15일을 기다려 인용 횟수(citation count)를 추출했습니다.
수치들
Otterly AI는 38개를 보고했습니다. 제가 직접 만든 스크립트는 54개, Semrush AI Toolkit은 71개, Bluefish AI는 89개, Profound는 147개, Scrunch는 203개, Peec AI는 312개를 보고했습니다.
가장 작은 수치와 가장 큰 수치의 차이는 8.2배입니다. 반올림 방식이 달라서 생긴 차이도 아니고, 신뢰 구간(confidence interval)을 벗어난 오차도 아닙니다. 무려 8배 차이입니다.
저는 처음에는 추출된 데이터를 잘못 읽었다고 생각하며 앉아 있었습니다. 그러다 각 도구의 문서에서
Profound는 답변에 귀하의 도메인을 가리키는 클릭 가능한 소스 링크 (source link)가 포함된 경우에만 인용 (citation)으로 계산합니다. 엄격하지만 출처 표기 (attribution) 측면에서는 유용합니다. 모델이 링크 없이 귀하의 브랜드를 언급하는 경우는 모두 놓칩니다. Peec AI는 답변 텍스트 내에 링크 여부와 상관없이 귀하의 브랜드 이름이 언급되면 모두 인용으로 계산합니다. 따라서 Perplexity가 "Ken Imoto가 voice AI에 관한 유용한 가이드를 작성했습니다"라고 말한다면, 링크가 없더라도 Peec AI에게는 인용이 됩니다. 이것이 그들의 수치가 가장 큰 이유입니다. Otterly AI는 Profound처럼 인용된 URL을 계산하지만, 쿼리당 일일 중복을 제거 (de-duplicates)하여 수치를 대폭 낮춥니다. Bluefish AI는 실제로 경쟁사 대비 점유율 (share-of-voice) 계산을 수행하므로, 그들의 "인용" 수치는 개수보다는 순위 (rank)에 더 가깝게 나타납니다. Scrunch는 중복 제거 없이 브랜드 언급 (brand mentions)과 소스 링크를 모두 계산하며, 이로 인해 중간에서 높은 범위에 위치합니다. Semrush는 구조화된 답변 (structured answer)의 URL 필드에 귀하의 도메인이 나타날 때만 계산하며, 이는 가장 엄격한 해석입니다. 저의 Python 스크립트는 제가 지시하는 대로 계산하는데, 현재 설정은 "브랜드 문자열이 답변 텍스트에 나타나며, 쿼리당 중복을 제거하고, 3개의 샘플을 평균 낸 값"입니다.
이러한 차이는 저에게만 국한된 것이 아닙니다. 2026년 툴링 가이드 (tooling guides)들도 이제 동일한 기준을 제시합니다. 브랜드 언급 (brand mentions)은 모델이 귀하의 이름을 얼마나 자주 말하는지를 의미하며, 인용 (citations)은 모델이 소스를 링크하거나 출처를 밝히는 것을 의미합니다. 일부 플랫폼 (Profound, Peec AI, AthenaHQ)은 URL 수준에서 명시적 인용 (explicit citations)과 암묵적 인용 (implicit citations)을 구분하지만, 다른 플랫폼들은 브랜드 수준의 가시성 (visibility)만을 보고합니다. 어떤 두 가지 정의를 선택하더라도 서로 일치하지 않을 것입니다. 이것이 바로 이 분야가 아직 공유된 표준 (shared standard)을 갖지 못한 이유입니다.
2. 어떤 LLM을 샘플링하는가
어떤 도구도 제가 관심 있는 5개의 엔진을 모두 다루지는 않았습니다. Peec AI는 5개 모두를 샘플링하며, 이는 더 넓은 노출 범위 (surface area)를 제공하고 그 수치가 가장 높은 이유 중 하나가 됩니다. Scrunch는 ChatGPT와 Perplexity만을 샘플링하는데, 이는 높은 수치를 더욱 흥미롭게 만듭니다. 즉, 더 적은 노출 범위에서 더 많은 인용을 찾아낸다는 뜻입니다. 만약 ChatGPT에만 관심이 있다면 트래커의 선택은 덜 중요합니다. 하지만 Gemini나 Claude에 관심이 있다면, 목록의 절반을 즉시 제외할 수 있습니다.
3. 샘플링 빈도 (How often they sample)
대부분의 도구는 매일 각 쿼리(query)를 실행합니다. 일부는 매주 실행합니다. Otterly는 매일 실행하지만 24시간 범위 내에서 중복을 제거하므로, 하루에 다섯 번 언급된 브랜드는 한 번으로 계산됩니다. Peec AI는 매일 실행하며 각 언급을 개별적으로 계산합니다. 15일 동안 12개의 쿼리를 실행하면, 이 차이는 빠르게 누적됩니다.
4. 사용자의 언어로 샘플링을 수행하는지 여부
저는 4개 언어로 콘텐츠를 발행합니다. 대부분의 트래커는 언어 세트를 수동으로 설정하지 않는 한 기본적으로 영어 전용 샘플링을 수행합니다. Peec AI는 기본적으로 115개 이상의 언어로 쿼리를 수행하기 때문에 가장 유용한 다국어 수치를 제공했습니다. 나머지 도구들은 대부분 저의 포르투갈어(PT) 및 스페인어(ES) 콘텐츠를 무시했으며, 이로 인해 브라질 및 라틴 아메리카(LatAm) 검색에서 실제로 일어나고 있는 현상을 과소평가하게 됩니다.
정의를 먼저 선택한 다음, 도구를 선택하세요
이 데이터를 2주 동안 들여다본 결과, "어떤 트래커가 가장 정확한가"는 잘못된 질문이라고 생각합니다. AI 인용(citation)에 대한 절대적인 기준값(ground truth)은 존재하지 않습니다. 모든 거대언어모델(LLM)은 시간, 지역, 그리고 접속하는 데이터 센터에 따라 동일한 프롬프트(prompt)에 대해 약간씩 다른 답변을 반환하는 블랙박스(black box)입니다. 이를 위한 Search Console 같은 도구는 없습니다.
올바른 질문은 이것입니다: "'인용'에 대한 어떤 정의가 당신이 실제로 중요하게 생각하는 비즈니스 결과와 일치하는가?"
- 기여 트래픽(attribution traffic, 누군가 링크를 클릭하는 것)을 원하는 경우: Profound 또는 Otterly를 사용하세요. 이들은 링크가 포함된 인용만 계산합니다. 수치는 작게 유지되지만, 검증 가능한 GA4 참조자(referrer) 이벤트와 일치합니다.
- 브랜드 존재감(brand presence, 모델이 링크 여부와 상관없이 당신의 이름을 언급하는 것)을 원하는 경우: Peec AI를 사용하세요. 수치는 관대해 보이지만, "ChatGPT가 내 이름을 소리 내어 말한다"는 것에 가장 가까운 대리 지표(proxy)입니다.
- 경쟁 우위(competitive positioning)를 원하는 경우: Bluefish 또는 Scrunch를 사용하세요. 두 도구 모두 경쟁사 세트를 기본적으로 실행합니다.
- 저예산으로 진실을 알고 싶은 경우: 직접 스크립트를 작성하세요. 저의 스크립트는 OpenAI, Anthropic, 그리고 Perplexity API를 활용한 약 200줄의 Python 코드로 구성되어 있으며, 한 달에 약 8달러가 들고, 상용 도구들이 차트 뒤로 대부분 숨겨버리는 가공되지 않은 답변 텍스트(raw answer text)를 grep으로 검색할 수 있게 해줍니다.
이 분야가 공유된 정의에 합의하기 전까지는, 모든 벤더(vendor)가 동일한 단어를 사용하면서도 각기 다르게 수치를 집계하고 있습니다. 공유된 분류 체계(taxonomy)가 있다면 이 문제를 해결할 수 있을 것입니다. 즉, 도구 전반에 걸쳐 "인용 (citation)", "언급 (mention)", "소스 링크 (source link)"가 무엇을 의미하는지에 대한 표준을 세워 수치를 비교 가능하게 만드는 것입니다. llmoframework.com에서 작동하는 Citation Signals는 바로 그러한 어휘 체계를 구축하려는 시도 중 하나입니다.
내가 실제로 사용하는 것들
솔직한 답변을 드리자면, 7개가 아니라 2개의 트래커를 사용합니다.
Otterly를 계속 사용하는 이유는 저렴하기 때문이며, 그 엄격한 정의가 제가 GA4에서 확인할 수 있는 내용과 일치하기 때문입니다. Otterly가 인용되었다고 말하고 GA4에서 참조 클릭(referrer click)이 나타난다면, 저는 두 데이터 모두를 신뢰합니다. 제가 직접 만든 Python 스크립트를 유지하는 이유는 저에게 가공되지 않은 텍스트(raw text)를 제공하며, 원한다면 내일이라도 정의를 바꿀 수 있기 때문입니다.
나머지는 모두 그만두었습니다. 성능이 나빠서가 아닙니다. 29달러짜리 도구와 대조해 볼 수 없는 수치를 확인하기 위해 매달 499달러를 지불하는 것은 저를 더 똑똑하게 만드는 것이 아니라 오히려 멍청하게 만들고 있었기 때문입니다.
만약 AI 인용 트래커(AI-citation tracker)에 돈을 쓰려고 한다면, 먼저 이것부터 하십시오. "인용"이 당신에게 무엇을 의미하는지 한 문장으로 적어보세요. 그런 다음 각 벤더에게 그들의 정의가 당신의 정의와 일치하는지 물어보십시오. 대부분은 명확하게 대답하지 않을 것입니다. 그것이 바로 당신이 얻어야 할 답입니다.
저는 제가 사용하는 Python 스크립트와 그와 연동되는 GA4 설정을 포함하여, 바로 이 측정 문제에 관한 책을 썼습니다: LLMO: AI Search Optimization.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기