이커머스 전반에 걸친 20,000개의 AI 생성 제품 추천 분석.

지난 1년 동안 AI 최적화(AI optimization)에 관한 대부분의 논의는 가시성(visibility)에 집중되어 왔습니다.

AI가 당신의 웹사이트를 크롤링(crawl)할 수 있는가? AI가 당신의 콘텐츠를 검색(retrieve)할 수 있는가? AI가 당신의 브랜드를 인용(cite)할 수 있는가?

이것들은 유용한 질문들입니다.

하지만 이커머스 전반에서 AI 추천 행동을 분석하는 동안, 우리는 계속해서 다른 질문에 부딪혔습니다.

왜 AI는 다른 브랜드보다 특정 브랜드를 지속적으로 추천하는가?

이를 조사하기 위해, 우리는 5가지 이커머스 카테고리에 걸쳐 20,000개의 AI 생성 제품 추천을 분석했습니다:

뷰티 (Beauty)
영양제 (Supplements)
커피 (Coffee)
반려동물 (Pets)
홈 & 리빙 (Home & Living)

전체 데이터셋에는 다음이 포함되었습니다:

20,000개의 추천
1,490개의 브랜드
5개의 커머스 카테고리

우리가 발견한 결과는 놀라웠습니다.

가설 #1: 더 나은 스토어가 더 많은 추천을 받는다

첫 번째 가정은 명백해 보였습니다.

만약 스토어가 AI 시스템이 이해하고, 처리하고, 평가하기 더 쉽다면, 더 많은 추천을 받아야 합니다.

이를 테스트하기 위해, 우리는 추천 빈도를 다음 항목들을 평가하도록 설계된 프레임워크인 AI Commerce Score™와 비교했습니다:

기계 가독성 (machine readability)
의미론적 구조 (semantic structure)
콘텐츠 깊이 (content depth)
기술적 구현 (technical implementation)
AI 준비도 (AI readiness)

기대치는 간단했습니다: 품질이 높은 스토어일수록 더 많은 추천을 받아야 한다는 것입니다.

데이터는 그렇지 않다고 말했습니다.

스토어 품질이 설명하는 것은 다음과 같았습니다:

추천 빈도의 2.1%뿐이었습니다.

약한 관계가 아닙니다.

관계가 거의 아예 없었습니다.

이는 즉시 또 다른 질문을 불러일으켰습니다.

만약 AI가 스토어가 더 좋다는 이유로 브랜드를 추천하는 것이 아니라면...

무엇이 추천을 주도하고 있는 것일까요?

가설 #2: 인지도 (Fame)

다음 설명은 대중적 인지도였습니다.

인기 있는 브랜드는 다음과 같은 특징을 가집니다:

더 많은 리뷰 (reviews)
더 많은 백링크 (backlinks)
더 많은 미디어 노출 (media coverage)
더 많은 언급 (mentions)
더 많은 콘텐츠 (content)

어쩌면 AI는 단순히 인간이 이미 알고 있는 브랜드를 추천하는 것일지도 모릅니다.

이를 테스트하기 위해, 우리는 데이터셋에서 가장 많이 추천된 200개 브랜드를 분석했습니다.

각 브랜드에 대해, 우리는 다음과 같은 대중적 인지도 신호(public fame signals)를 수집했습니다:

Wikipedia 읽기 수 (Wikipedia readership)
언어 판(language editions)의 수
문서의 깊이 (Article depth)
브랜드 이름의 특성 (Brand name characteristics)

그 다음, 우리는 이러한 지표들을 추천 빈도(recommendation frequency)와 비교했습니다.

결과 (Results)

상점 품질 (Store Quality): 2.1%

대중적 인지도 (Public Fame): 24.9%

대부분의 추천 행동: 여전히 설명되지 않음 (Still unexplained)

대중적 인지도는 상점 품질보다 추천 행동을 훨씬 더 많이 설명하지만, 대부분의 추천 행동은 여전히 설명되지 않은 상태로 남아 있습니다.

인지도는 중요했습니다.

상점 품질보다 훨씬 더 중요했습니다.

하지만 여전히 대부분의 추천 결과(recommendation outcomes)를 설명하는 데는 실패했습니다.

가장 많이 추천되는 브랜드가 더 나은 상점인 것은 아니다

그 다음, 우리는 데이터셋을 두 그룹으로 나누었습니다:

가장 많이 추천된 상위 50개 브랜드
가장 적게 추천된 하위 50개 브랜드

만약 추천 빈도가 상점 품질을 반영한다면, 그 차이는 분명하게 나타나야 했습니다.

하지만 그렇지 않았습니다.

지표 (Metric)	상위 50개 (Top 50)	하위 50개 (Bottom 50)
추천 빈도 (Recommendation Frequency)	30.9%	5.0%
AI Commerce Score™	50.8	49.8

어쩌면 추천은 무작위(Random)일까?

이 시점에서 합리적인 설명은 다음과 같을 것입니다: AI의 추천 행동은 대부분 무작위이다.

그래서 우리는 그것을 테스트했습니다.

모든 쇼핑 쿼리(shopping query)를 20번씩 반복했습니다.

만약 추천 행동이 불안정하다면, 반복된 실행에 따라 서로 다른 승자가 나타날 것이라고 예상할 수 있습니다.

대신, 우리는 정반대의 현상을 관찰했습니다.

동일한 브랜드가 계속해서 나타났습니다.

다시 한번.

그리고 또다시.

카테고리를 통틀어, 최상위 순위의 브랜드가 1위를 유지한 비율은 다음과 같았습니다:

실행 횟수의 78%에서 91% 사이.

추천 결과는 반복된 실행 전반에 걸쳐 매우 안정적으로 유지됩니다.

이것은 아마도 연구 전체에서 가장 놀라운 결과였을 것입니다.

왜냐하면 이는 추천 행동의 설명되지 않는 부분이 무작위(random)가 아님을 의미하기 때문입니다.

시스템은 놀라울 정도로 안정적인 것으로 보입니다.

우리는 단지 아직 그것을 이해하지 못하고 있을 뿐입니다.

이것이 시사하는 바

모든 조사 결과를 종합하면, 네 가지 사실을 관찰할 수 있습니다:

상점의 품질(Store quality)은 추천 행동을 거의 설명하지 못합니다.
대중적 인지도(Public fame)는 훨씬 더 많은 부분을 설명합니다.
대부분의 추천 행동은 여전히 설명되지 않은 상태로 남아 있습니다.
추천 결과는 매우 안정적으로 유지됩니다.

이러한 결과들을 종합해 볼 때, 전통적인 AI 가시성(visibility) 지표 아래에서 작동하는 또 다른 계층(layer)이 존재할 수 있음을 시사합니다.

가시성(Visibility)은 다음을 답합니다: AI가 브랜드를 볼 수 있는가?

추천(Recommendation)은 다음을 답합니다: AI가 브랜드를 선택할 것인가?

이것들은 근본적으로 다른 문제입니다.

가능한 추천 계층 (Recommendation Layer)

이러한 결과에 대한 한 가지 해석은, 추천 시스템이 현재의 AI 가시성 도구가 측정하는 것보다 더 깊은 결정 계층(decision layer)에서 작동한다는 것입니다.

다음 요소들 아래에 있는 계층입니다:

순위 (rankings)
인용 (citations)
검색 (retrieval)
가시성 (visibility)

신뢰, 선택, 그리고 추천에 영향을 미치는 계층 말입니다.

우리는 아직 어떤 변수들이 그 계층을 정의하는지 알지 못합니다.

하지만 데이터는 그것이 존재함을 시사합니다.

그리고 AI 시스템이 상업적 의사결정에서 더 큰 역할을 하게 됨에 따라, 이를 이해하는 것이 점점 더 중요해질 수 있습니다.

열린 질문들 (Open Questions)

이 연구는 하나의 질문에 답했습니다.

그리고 몇 가지 질문을 더 만들어냈습니다.

상점의 품질이 2.1%를 설명한다면...

인지도가 24.9%를 설명한다면...

남은 73%는 무엇이 설명할까요?

잠재적인 후보로는 다음과 같은 것들이 포함될 수 있습니다:

신뢰 신호 (trust signals)
엔티티 관계 (entity relationships)
학습 데이터 노출 (training data exposure)
추천 강화 효과 (recommendation reinforcement effects)
의미론적 권위 (semantic authority)
인용 네트워크 (citation networks)
브랜드 친숙도 패턴 (brand familiarity patterns)
아직 우리가 식별하지 못한 요인들 (factors we haven't identified yet)

현 단계에서 우리는 알지 못합니다.

하지만 그것이 바로 우리가 다음에 조사할 내용입니다.

방법론 (Methodology)

데이터셋 (Dataset):

20,000개의 AI 생성 추천
1,490개의 브랜드
5개의 이커머스 (ecommerce) 카테고리

카테고리 (Categories):

뷰티 (Beauty)
건강보조식품 (Supplements)
커피 (Coffee)
반려동물 (Pets)
홈 & 리빙 (Home & Living)

측정 변수 (Measured variables):

추천 빈도 (Recommendation frequency)
AI 커머스 스코어™ (AI Commerce Score™)
위키피디아 (Wikipedia) 독자 수
언어 판 (Language editions)
문서 깊이 (Article depth)
브랜드 이름 특성 (Brand name characteristics)

반복 실행 테스트 (Repeated-run testing):

쿼리당 20회의 반복 추천 실행

최종 생각 (Final Thought)

오늘날 대부분의 AI 최적화 논의는 가시성 (visibility)에 집중되어 있습니다.

우리의 데이터는 추천 동작이 완전히 별개의 문제일 수 있음을 시사합니다.

가시성은 AI가 당신을 찾을 수 있는지 여부를 결정합니다.

추천은 AI가 당신을 선택할지 여부를 결정합니다.

그리고 이 둘은 매우 다른 두 개의 시스템으로 밝혀질 수도 있습니다.

AI는 인지도에 따라 추천한다. 하지만 인지도가 대부분의 추천을 설명하지는 못한다.

요약

핵심 포인트