AI 인용(Citations)이 실제로 작동하는 방식: 쿼리부터 각주까지

ChatGPT, Perplexity, Gemini에게 동일한 질문을 던지면, 3분의 1 이상의 쿼리에서 세 가지 서로 다른 출처 목록을 받게 됩니다. 같은 웹, 같은 질문임에도 불구하고, 누구를 인용할 가치가 있는지에 대해 세 가지 별개의 판결이 내려지는 것입니다. 이러한 차이는 AI 인용(Citations)이 실제로 어떻게 작동하는지를 보여주는 가장 명확한 창이며, 이 주제에 대해 쓰인 거의 모든 글은 그 메커니즘을 건너뛰고 바로 최적화 팁으로 넘어갑니다. 이것이 바로 그 메커니즘입니다.

AI 인용은 사소해 보입니다. 위첨자로 표시된 숫자, 문단 아래의 작은 출처 카드, 혹은 끝에 utm_source=chatgpt.com이 붙은 링크 같은 것 말이죠. 그 작은 요소 뒤에는 당신의 질문과 답변 사이의 1초 동안 실행되는 파이프라인(pipeline)이 자리 잡고 있으며, 이는 지난 20년 동안 Google이 페이지 순위를 매기던 방식과는 거의 공통점이 없습니다. 일단 파이프라인을 이해하고 나면, 이 주제는 더 이상 신비로운 영역이 아닙니다. 모델이 왜 객관적으로 더 잘 작성된 다른 페이지는 무시하고 특정 페이지를 인용했는지 상당히 정확하게 예측할 수 있게 됩니다.

인용은 모델이 당신을 알고 있다는 뜻이 아니다

언어 모델(Language Model)이 당신의 비즈니스에 관한 문장을 생성하는 방식에는 완전히 다른 두 가지 방법이 있습니다. 첫 번째는 파라미터 메모리(Parametric Memory)로, 훈련(training) 과정에서 가중치(weights)에 구워진 지식입니다. 만약 당신의 회사가 훈련 데이터에 포함되어 있었다면 모델은 당신을 "알고" 있을 수도 있지만, 출처를 지목할 수는 없습니다. 왜냐하면 모델은 URL을 저장한 것이 아니라, 몇 달 전에 흡수한 텍스트의 통계적 흐릿함(statistical blur)만을 저장했기 때문입니다. 두 번째 방법은 실시간 검색(Real-time Retrieval)입니다. 시스템이 외부로 나가 실시간 문서를 가져오고, 해당 문서들을 증거로 사용하여 답변을 작성합니다. 인용은 오직 두 번째 방식에만 해당됩니다.

이것이 바로 Retrieval-Augmented Generation (RAG, 검색 증강 생성)이며, 출처를 표시하는 거의 모든 AI 답변의 기반이 되는 아키텍처입니다. 모델은 먼저 관련 문서를 검색(retrieves)한 다음, 해당 문서들에 근거하여(grounded) 답변을 생성합니다. 이 두 경로의 차이는 "모델이 당신에 대해 막연한 인상을 가지고 있는 것"과 "모델이 당신의 말을 인용하고 당신에게 링크를 연결할 수 있는 것"의 차이와 같습니다. 한 분석에서는 2026년에 6억 8천만 개 이상의 AI 인용(citations)을 정밀 조사했으며, 그 패턴은 어디에서나 동일하게 나타났습니다. 즉, 인용된 답변은 기억된(remembered) 답변이 아니라 근거가 있는(grounded) 답변이라는 점입니다.

이러한 구분은 문제 전체를 재정의합니다. 학습 데이터(training data)에 포함되는 것은 느리고, 모호하며, 대부분 여러분의 통제 범위를 벗어나 있습니다. 반면, 검색(retrieved)되는 것은 누군가 관련 질문을 던질 때마다 발생하는 실시간적이고 기계적인 이벤트이며, 여러분이 실제로 추론할 수 있는 규칙을 따릅니다.

단일 답변 뒤에 숨겨진 파이프라인 (The Pipeline Behind a Single Answer)

AI 검색 도구에 질문을 던지면 다섯 가지 단계가 빠르게 연속적으로 일어납니다. 각 단계가 다음 단계가 시작되기도 전에 웹의 대부분을 걸러내기 때문에, 이 과정들을 살펴볼 가치가 있습니다.

첫째, 쿼리 해석(query interpretation)입니다. 인간의 복잡한 질문은 하나 또는 여러 개의 짧은 검색 쿼리(retrieval queries)로 재작성됩니다. 이를 근거 쿼리(grounding queries)라고 부르며, 이는 시스템이 실제로 검색하게 될 문자 그대로의 용어들입니다. "Campos 근처의 시골 핀카(fincas)를 위한 최고의 부동산 중개인은 누구인가요?"라는 질문은 지역, 부동산 유형, 중개업체에 관한 세 개의 깔끔한 쿼리로 변환될 수 있습니다.

둘째, 검색(retrieval)입니다. 시스템은 하이브리드 검색(hybrid search)을 사용하여 인덱스(index)에 대해 해당 쿼리들을 실행합니다. 하이브리드 검색은 전통적인 키워드 매칭(BM25)과 정확한 단어보다는 의미를 포착하는 밀집 벡터 임베딩(dense vector embeddings)을 결합합니다. 인덱스가 어디에서 오느냐는 엔진마다 다릅니다. Perplexity는 공개된 웹을 지속적으로 크롤링(crawls)합니다. ChatGPT는 Bing의 인덱스에 크게 의존합니다. 각 엔진은 인터넷의 서로 다른 지도를 검색하고 있는 것입니다.

셋째, 재순위화 (re-ranking)입니다. 검색 (Retrieval) 단계에서는 너무 많은 후보군이 반환되므로, 재순위화 모델 (re-ranker)이 이들의 점수를 매겨 소수만을 남깁니다. Perplexity는 이를 위해 3단계 재순위화 모델을 실행하는 것으로 알려져 있습니다. 수백 개의 페이지가 단 5개 또는 8개 정도로 압축됩니다.

넷째, 추출 (extraction)입니다. 이는 대부분의 사람들이 놓치는 단계입니다. 시스템은 페이지 전체를 읽지 않습니다. 하위 질문 (sub-question)에 답하는 특정 구절들, 즉 청크 (chunks)를 뽑아내고 나머지는 버립니다. 다섯째, 종합 (synthesis) 및 인용 결정 (citation decision) 단계입니다. 모델은 해당 구절들에 의해 제약된 상태로 답변을 작성한 다음, 각 구절이 뒷받침하는 텍스트 범위 (spans)에 각 출처를 부착합니다.

4단계의 결과는 AI 인용 (AI citations)에 관한 가장 중요한 사실을 시사합니다. 엔진은 페이지가 아니라 구절 (passages)을 인용합니다. 이들은 Google이 하는 방식처럼 귀하의 사이트 순위를 매기거나 전반적인 품질을 판단하지 않습니다. 대신 하나의 좁은 질문에 깔끔하게 답하는 문단을 가져옵니다. 어떤 페이지가 Google 검색 결과 1위에 있더라도 인용되지 않을 수 있는데, 이는 답변이 5개의 문단에 걸쳐 흩어져 있어 단일 청크 (chunk)만으로는 독립적인 답이 되지 못했기 때문입니다. 수치가 이를 증명합니다. Google 상위 10위 안에 드는 페이지 중 AI 인용에 나타나는 페이지는 약 44%에 불과합니다. 이는 점수판 자체가 다른, 완전히 다른 게임입니다.

인용을 신뢰할 수 있게 만드는 부분: 그라운딩 (Grounding)

그라운딩 (Grounding)은 모델의 의견과 모델의 근거를 분리하는 메커니즘입니다. 초안 답변이 생성된 후, 우수한 시스템은 구절 수준의 검증 (span-level verification)을 수행합니다. 답변 내의 각 주장 (assertion)은 검색된 구절들과 다시 대조됩니다. 시스템은 해당 구절이 주장을 뒷받침하는지 확인하거나, 주장을 미검증 상태로 표시하거나, 주장과 출처 사이의 모순을 잡아냅니다. 이는 모델의 생성물과 사용자의 화면 사이에 위치하는 팩트 체크 (fact-checking) 레이어입니다.

그 위에 상호 확인 (corroboration) 과정이 실행됩니다. 엔진은 웹 전반의 다른 권위 있는 출처들과 해당 주장을 교차 참조 (cross-reference) 합니다. 여러 신뢰할 수 있는 출처가 유사한 언어로 동일한 사실을 기술하고 있다면, 엔진은 이를 검증된 것으로 간주하고 안심하고 인용합니다. 다른 곳에서 전혀 언급되지 않는 특이한 주장을 하는 단 하나의 페이지는, 설령 그 주장이 실제로 사실일지라도 약하고 위험한 인용 후보가 됩니다.

이것이 바로 인용 (citations)이 환각 (hallucination)을 유발하는 대신 줄여주는 이유입니다. 답변이 시스템이 실제로 가져오고 확인한 텍스트에 묶여 있기 때문입니다. 또한 이것이 콘텐츠의 문장력보다 구조가 더 중요한 이유이기도 합니다. 파이프라인 (pipeline)은 당신의 글솜씨를 감상하는 것이 아닙니다. 특정 구절이 특정 주장을 뒷받침하는지, 그리고 웹의 나머지 부분들이 이를 뒷받침하는지를 확인하는 것입니다.

네 개의 엔진, 네 개의 서로 다른 사고방식

세 명의 어시스턴트가 세 개의 서로 다른 출처 목록을 제공하는 이유는, 각기 다른 편향 (bias)을 가진 서로 다른 인덱스 (index)에서 서로 다른 검색 전략 (retrieval strategies)을 실행하기 때문입니다. 2026년의 대략적인 형상은 다음과 같습니다.

Perplexity는 검색 우선 (retrieval-first) 방식입니다. 거의 모든 쿼리 (query)를 검색하고, 웹을 지속적으로 크롤링 (crawl)하며, 기본적으로 번호가 매겨진 인라인 출처 (inline sources)를 통해 인용합니다. ChatGPT보다 답변당 거의 3배 더 많은 출처를 가져오며, Reddit에 이례적으로 크게 의존합니다 (상위 인용의 약 47%가 Reddit). 또한 페이지의 구조적 변화에 2~7일 이내에 반응하며, 이는 그룹 중 가장 빠릅니다. 스키마 마크업 (Schema markup)은 거의 영향을 미치지 못합니다.

ChatGPT는 기본적으로 파라메트릭 (parametric) 방식입니다. 쿼리가 검색 동작을 트리거 (trigger)하지 않는 한 학습 데이터로부터 답변하며, 검색이 트리거되는 시점에 Bing의 인덱스를 통해 정보를 검색합니다. 학습 과정에서 합의된 내용과 백과사전적 출처에 편향되도록 만들어졌으며, 이것이 Wikipedia가 인용에서 큰 비중을 차지하는 이유입니다. 발견한 정보 중 인용하는 비율은 더 낮으며, 주간 사용자 8억 명을 보유한 상황에서 그곳에서 보이지 않는다는 것은 가장 비용이 많이 드는 형태의 '보이지 않음'입니다. 2025년 6월부터는 인용 링크에 utm_source=chatgpt.com 태그를 붙이고 있으며, 이는 적어도 트래픽을 측정 가능하게 만듭니다.

Claude는 보수적인 편입니다. Claude는 학습 데이터와 제공된 코퍼스 (Corpus)에 의존하며, 도구가 주어졌을 때만 브라우징을 수행합니다. 인용을 할 때 Claude는 깊이와 명확한 구조를 선호하며, 잘 정리된 불렛 포인트 (Bullet-pointed) 페이지를 인용할 확률이 대략 30% 더 높습니다. 또한 최신성 (Freshness)에 대해 가장 엄격한 엔진입니다. 시간이 중요한 주제의 경우, 최종 수정 날짜가 1년 이상 지난 콘텐츠는 가치를 낮게 평가합니다. Gemini와 Google AI Overviews는 Google 자체의 검색 인덱스 (Search index)를 기반으로 하며, 브랜드 및 엔티티 (Entity) 신호에 치우쳐 있고, 출처를 본문 내 (Inline)가 아닌 요약 아래에 표시합니다.

실질적인 결과는 차이 (Divergence)입니다. 세 엔진 전체를 통틀어, 쿼리의 35%에서 40% 사이는 거의 겹치지 않는 소스 세트를 반환합니다. ChatGPT와 Perplexity는 인용된 도메인을 약 11% 정도만 공유하는 것으로 측정되었습니다. AI 가시성 (Visibility)을 하나의 요소로만 취급한다면, 당신은 하나의 엔진을 위해 최적화하고 있는 동시에 나머지 세 개의 엔진은 당신을 조용히 무시하게 만드는 셈입니다.

왜 어떤 페이지는 포함되고 대부분은 포함되지 않는가

파이프라인 (Pipeline)이 명확해지면, 특정 페이지가 계속 인용되는 이유는 SEO 민담처럼 보이지 않고 배관 (Plumbing) 작업처럼 보이기 시작합니다.

첫 번째는 검색 가능성 (Retrievability)이며, 이는 가장 흔한 무언의 실패 원인입니다. 엔진은 크롤러 (Crawler)가 도달할 수 없는 페이지를 인용할 수 없습니다. 각 엔진은 자체적인 에이전트 (Agent)를 실행합니다: ChatGPT 검색을 위한 OAI-SearchBot, Anthropic을 위한 ClaudeBot 및 Claude-User, PerplexityBot, Gemini를 위한 Google-Extended가 그것입니다. robots.txt에서 하나를 차단하면, 콘텐츠가 아무리 강력하더라도 해당 엔진은 당신을 볼 수 없게 됩니다. 수많은 훌륭한 페이지들이 이 지루한 이유 하나 때문에 인용될 수 없는 상태로 남아 있습니다.

다음은 추출 가능성 (Extractability)입니다. 파이프라인이 구절을 끌어올리기 때문에, 단 한 곳에서 하위 질문에 깔끔하게 답하는 콘텐츠는 추출되지만, 답변이 페이지 절반에 걸쳐 분산되어 있는 콘텐츠는 추출되지 않습니다. 이것이 바로 답변 우선 방식의 글쓰기 (Answer-first writing), 명확한 헤딩 (Headings), 표 (Tables), 그리고 직접적인 정의 (Direct definitions)가 인용과 상관관계를 갖는 진짜 이유입니다. 이것들은 마법 같은 순위 신호 (Ranking signals)가 아닙니다. 기계적으로 청크 (Chunk)화하여 끌어올리기가 더 쉽기 때문입니다.

다음은 상호 확인(Corroboration)과 원본 데이터입니다. 웹 전반에 걸쳐 일관된 언어로 울려 퍼지는 주장은 인용하기에 안전하며, 이것이 바로 Reddit, Wikipedia, 뉴스 및 리뷰 사이트에서의 브랜드 존재감이 페이지 내의 그 어떤 미세 조정(On-page tweak)보다 인용을 더 많이 유도하는 이유입니다. 특히 ChatGPT에서 더욱 그러합니다. 반대의 경우도 마찬가지로 유용합니다. 아무도 갖지 않은 수치를 발표하면 당신은 그 수치에 대한 유일한 출처가 됩니다. 독창적인 연구(Original research)는 인용될 확률이 약 3.7배 더 높으며, 구조화된 데이터 마크업(Structured data markup)은 약 2.1배 더 높다고 측정되었습니다. 최신성(Freshness)은 이 과정을 완성합니다. 일부 엔진, 특히 Claude는 오래된 타임스탬프(Timestamp)를 조용히 무시하기 때문입니다.

이 중 어느 것도 속임수가 아닙니다. 이는 파이프라인(Pipeline)의 형태가 드러나는 방식입니다. 기계는 도달 가능하고(Reachable), 끌어올리기 쉬우며(Liftable), 상호 확인이 가능하고(Corroborated), 최신인(Current) 콘텐츠에 보상을 줍니다. 왜냐하면 이 네 가지가 파이프라인이 말 그대로 확인하는 요소들이기 때문입니다.

다음 단계: 당신을 읽는 것에서 당신을 바탕으로 행동하는 것으로

인용(Citations)은 모델이 당신을 읽고 참조할 수 있는지에 관한 것입니다. 2026년을 관통하며 나아가는 최전선(Frontier)은 에이전트(Agent)가 당신을 바탕으로 무언가를 수행할 수 있는지 여부이며, 몇몇 표준(Standards)들이 조용히 그 다리를 건설하고 있습니다.

가장 가벼운 것은 llms.txt입니다. 이는 사이트 루트에 위치한 마크다운(Markdown) 파일로, 중요한 페이지들을 짧은 설명과 함께 나열하며, 크롤러(Crawler) 대신 모델을 위해 작성된 일종의 사이트맵(Sitemap)입니다. 이는 엔진이 무엇이 중요한지 파악하기 위해 수행해야 하는 작업을 줄여주며, 이미 Cloudflare, Stripe 및 수십만 개의 다른 사이트에서 사용되고 있습니다. llms.txt 명세(spec)는 몇 분 안에 읽을 수 있습니다. Schema.org 마크업은 데이터 수준에서 이와 유사한 역할을 수행하며, 파서(Parser)에게 해석해야 하는 산문(Prose) 대신 구조화된 사실(Structured facts)을 전달합니다.

더 큰 변화는 Anthropic에서 발표한 오픈 표준인 Model Context Protocol (MCP)입니다. 이를 통해 AI 앱은 페이지에서 텍스트를 스크래핑(Scraping)하는 대신, 라이브 데이터 소스나 도구에 직접 연결할 수 있습니다. 모델이 캐시된 단락으로부터 가격을 추측하는 대신, 직접 쿼리(Query)를 날려 확인할 수 있게 된 것입니다. 흔히 이를 "AI를 위한 USB-C"라고 부릅니다. 한 걸음 더 나아가 WebMCP와 agents.json의 개념이 있는데, 여기서 웹사이트는 에이전트가 직접 호출할 수 있는 도구들(예: 예약하기, 가용성 확인, 견적 요청 등)을 게시합니다. 이제 페이지는 단순히 읽는 대상이 아니라 조작하는 대상이 됩니다.

이 궤적은 명확합니다. "내 콘텐츠가 검색 인덱스(Retrieval index)에 있는가"에서 시작하여 "사람이 웹사이트를 열지 않고도 에이전트가 내 비즈니스와 거래할 수 있는가"로 나아갑니다. 인용(Citations)은 그 사다리의 첫 번째 칸이며, 이것이 바로 인용을 단순히 체크리스트로 쫓기보다는 제대로 이해할 가치가 있는 이유입니다.

이것이 실제로 의미하는 바

모든 것을 걷어내고 보면, AI 인용은 검색(Retrieval), 근거 제시(Grounding), 그리고 검증(Verification) 파이프라인의 가시적인 결과물입니다. 이것은 모델이 당신을 알고 있다는 증거가 아니며, Google에서의 순위와는 놀라울 정도로 관련이 없습니다. 인용되는 페이지는 파이프라인이 도달할 수 있고, 깔끔하게 추출할 수 있으며, 웹의 나머지 정보와 대조하여 상호 확인(Corroborate)할 수 있고, 최신 정보로서 신뢰할 수 있는 페이지들입니다.