본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 25. 11:06

대규모 언어 모델(LLM)이 언어와 시장에 걸쳐 브랜드 평판을 확보하는 방식

요약

LLM이 브랜드 정보를 인용하는 방식에 대한 연구로, 13개 언어와 128개 브랜드를 분석했습니다. AI는 주로 브랜드 소유 사이트가 아닌 제3자 소스를 통해 정보를 제공하며, 특정 도메인에 인용이 집중되는 경향을 보입니다.

핵심 포인트

  • AI 답변 근거의 85.7%가 제3자 소스에 의존함
  • 인용의 80%가 전체 도메인의 18%에 집중되는 롱테일 현상
  • Wikipedia가 대부분의 언어권에서 가장 지배적인 인용 소스임
  • 시장 및 언어별로 선호되는 정보 소스 유형이 다르게 나타남

대규모 언어 모델 (LLM)이 기업에 관한 질문에 답변할 때, 모델은 검색된 웹 소스에 답변의 근거를 두며, 해당 소스들이 모델이 말하는 내용을 결정합니다. AI 브랜드 가시성에 대한 대부분의 분석은 답변 텍스트를 살펴봅니다. 본 연구는 그보다 한 단계 앞선 단계인 인용(citations)을 살펴봅니다. 우리는 12개 홈 마켓과 13개 언어에 걸쳐 128개 브랜드를 다루는 세 개의 Rankfor.AI 데이터셋을 통합하여, 167,551개의 URL 기반 인용(총 189,974개의 속성 행)을 분석합니다. 우리는 각 인용을 도메인 및 소스 유형별로 분류하고, 언어 및 시장별로 AI가 브랜드 정보를 어디에서 가져오는지 측정합니다. 네 가지 패턴이 관찰됩니다. 첫째, AI는 압도적으로 제3자 소스에 브랜드 답변의 근거를 둡니다. 인용의 85.7%가 브랜드가 소유하지 않은 사이트를 가리키는 반면, 소유한 사이트는 14.3%에 불과합니다. 둘째, 소스 기반은 집중되어 있으며 롱테일(long-tailed) 형태를 띱니다. 인용의 80%가 약 18%의 도메인에서 발생하며, 이는 지프의 법칙 (Zipf law, alpha = 0.86, R^2 = 0.983)에 부합합니다. 셋째, 하나의 참조 사이트가 거의 모든 곳에서 지배적입니다. Wikipedia는 12개 언어 중 11개 언어에서 가장 많이 인용되는 도메인이며, 예외적으로 리투아니아에서는 비즈니스 일간지인 vz.lt가 근소한 차이(4.38%)로 앞섭니다. 넷째, 소스 혼합은 한계 영역에서 시장별로 특화되어 있습니다. 46개의 폴란드 국가 브랜드의 경우 가장 많이 인용되는 도메인은 YouTube이며, 4개의 HR 및 채용 포털이 637개의 인용을 제공하여 폴란드 Wikipedia의 297개보다 약 두 배 더 많습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0