더 이상 인간만이 아닌 웹을 위한 분석 설계
요약
현대 웹 환경은 인간 방문자뿐만 아니라 AI 크롤러, 검색 엔진, AI 어시스턴트 등 다양한 비인간 트래픽이 공존합니다. 기존의 인간 중심 분석 모델에서 벗어나, 트래픽의 성격에 따라 인간, 크롤러, AI 리퍼럴을 분리하여 설계하는 정직한 데이터 모델링의 필요성을 제안합니다.
핵심 포인트
- 기존의 인간 중심 웹 분석 모델의 한계 지적
- 인간 트래픽, 크롤러, AI 리퍼럴의 명확한 분리 필요성
- AI 크롤러는 인프라 가시성 관점에서 관리해야 함
- AI 리퍼럴은 기여도(Attribution) 분석 관점에서 접근해야 함
- 데이터 모델의 정직성을 통한 운영 효율성 증대
대부분의 웹사이트 분석 (Analytics) 제품은 인간 방문자를 중심으로 설계되었습니다: 세션 (sessions), 페이지뷰 (pageviews), 리퍼러 (referrers), 캠페인 (campaigns), 그리고 전환 (conversions) 등이 그것입니다.
그 모델은 여전히 중요하지만, 더 이상 전체 운영 환경을 설명하지는 못합니다. 현대의 웹사이트는 검색 크롤러 (search crawlers), AI 크롤러 (AI crawlers), 미리보기 시스템 (preview systems), 자동 모니터링 시스템 (automated monitors), 그리고 리퍼럴 데이터 (referral data)를 보낼 수도 있고 보내지 않을 수도 있는 AI 어시스턴트 (AI assistants)에 의해서도 접속됩니다.
이러한 웹을 위한 유용한 분석 시스템은 모든 요청이 동일한 종류의 신호인 것처럼 가장해서는 안 됩니다. 분류 가능한 것을 분리하고, 기여도 (attribution)가 불완전한 곳에서는 불확실성을 보존하며, 운영자에게 어떤 일이 일어났는지 검사할 수 있는 명확한 방법을 제공해야 합니다.
방문자 모델의 변화
수년 동안 분석 도구들은 비인간 트래픽 (non-human traffic)을 주로 노이즈 (noise)로 취급했습니다. 주요 제품 질문이 얼마나 많은 사람이 방문했는지, 어디에서 왔는지, 그리고 다음에 무엇을 했는지였을 때는 그것이 합리적이었습니다.
하지만 현대의 사이트는 하나 이상의 오디언스 (audience)를 가지고 있습니다. 검색 엔진은 인덱싱 (indexing)을 위해 페이지를 크롤링합니다. AI 크롤러는 문서, 제품 페이지, 기사, 변경 로그 (changelogs), 그리고 구조화된 메타데이터 (structured metadata)를 읽을 수 있습니다. 미리보기 시스템은 카드 렌더링을 위해 페이지를 가져옵니다 (fetch). 모니터링 시스템은 가용성을 확인합니다. AI 어시스턴트는 인간이 인용된 링크를 따라갈 때 리퍼럴 트래픽 (referral traffic)을 보낼 수도 있지만, 많은 어시스턴트 인터페이스는 리퍼럴 데이터를 제거하거나 변경합니다.
이러한 이벤트들은 모두 같은 의미를 갖지 않습니다. 인간의 페이지뷰, 검색 크롤러의 요청, AI 크롤러의 방문, 그리고 기여도가 확인된 AI 리퍼럴은 하나의 차별화되지 않은 차트로 통합되어서는 안 됩니다. 이들은 서로 다른 운영상의 질문에 답합니다.
실질적인 목표는 분석을 더 요란하게 만드는 것이 아닙니다. 데이터 모델을 더 정직하게 만드는 것입니다.
인간 트래픽, 크롤러, 그리고 AI 리퍼럴의 분리
좋은 첫 번째 단계는 인간 트래픽, 크롤러 트래픽, 그리고 AI 리퍼럴을 별도의 경로로 유지하는 것입니다.
인간 트래픽은 제품 및 오디언스 관점에 속합니다. 이는 실제 방문자, 페이지, 소스 구성 (source mix), 그리고 전환 행동 (conversion behavior)에 대한 질문에 답합니다.
크롤러 트래픽 (Crawler traffic)은 인프라 및 가시성 관점 (infrastructure and visibility view)에 속합니다. 이는 운영자가 어떤 시스템이 사이트에 접속했는지, 어떤 페이지가 요청되었는지, 그리고 중요한 영역들이 검색 및 AI 시스템에 의해 읽힐 수 있는 상태인지(legible)를 파악하는 데 도움을 줍니다.
AI 추천 (AI referrals)은 기여도 분석 (attribution)에 속합니다. 이는 더 좁은 범위의 질문에 답합니다: 방문자가 알려진 AI 어시스턴트나 답변 엔진 (answer engine) 표면으로부터 유입되었는가? 이는 대개 Referer 헤더에 달려 있으며, 이는 참조자 (referrer)가 누락되었거나, 제거되었거나, 분류하기에 너무 일반적일 경우 시스템이 정직해야 함을 의미합니다.
실수는 크롤러 활동과 AI 추천 트래픽을 동일한 것으로 취급하는 것입니다. 사이트는 기여도가 할당된 추천을 받지 않고도 AI 시스템에 의해 크롤링될 수 있습니다. 또한, 어떤 이전의 크롤링이나 답변이 이를 생성했는지 정확히 증명할 수 없더라도 추천을 받을 수 있습니다.
불확실성은 가시적이어야 합니다
분석 시스템은 종종 잘못된 정밀함을 만들어냅니다. 소스 (source)가 누락되면 방문자를 직접 트래픽 (direct traffic)으로 밀어 넣을 수 있습니다. 사용자 에이전트 (user agent)가 생소해 보이면 일반적인 봇 범주 (generic bot bucket)로 사라져 버릴 수 있습니다. 참조자가 모호하더라도 여전히 확신에 찬 라벨이 붙을 수 있습니다.
이는 대시보드에는 편리할지 모르지만, 운영자에게는 유용하지 않습니다.
불확실성은 일급 상태 (first-class state)여야 합니다. 트래픽을 높은 신뢰도로 분류할 수 있다면 명확하게 라벨을 붙이십시오. 크롤러로 인식된다면 이를 보존하십시오. 자동화된 것으로 보이지만 알려진 시스템과 연결되지 않았다면 그렇게 말하십시오. 기여도를 확립할 수 없다면, 그것을 지어내는 것을 피하십시오.
이것이 중요한 이유는 AI 가시성 (AI visibility)이 여전히 진화 중인 영역이기 때문입니다. 새로운 크롤러가 등장합니다. 참조자 동작이 변합니다. 답변 엔진은 인용하거나 링크를 거는 방식이 제각각입니다. 회복 탄력성이 있는 분석 시스템은 자신이 알고 있는 것을 과장하지 않으면서 그러한 움직임을 수용할 공간을 확보해야 합니다.
실용적인 이벤트 모델
운영자급 모델은 작게 유지될 수 있습니다.
최소한, 각 요청(request) 또는 이벤트(event)는 페이지, 타임스탬프(timestamp), 소스 컨텍스트(source context), 그리고 분류 결과(classification result)를 보존해야 합니다. 크롤러 트래픽(crawler traffic)의 경우, 식별 가능한 경우 해당 시스템을 저장하고 크롤러 활동을 인간의 페이지 뷰(page views)와 분리하여 유지해야 합니다. 리퍼럴(referrals)의 경우, 참조 호스트(referring host)가 존재하고 유지 관리되는 허용 목록(allow-list)과 일치하는 경우에만 저장합니다.
단순화된 분류 어휘(classification vocabulary)에는 다음과 같은 항목이 포함될 수 있습니다:
- human (인간)
- search crawler (검색 크롤러)
- AI crawler (AI 크롤러)
- automation or preview system (자동화 또는 프리뷰 시스템)
- AI referral (AI 리퍼럴)
- unknown (알 수 없음)
해당 어휘는 의도적으로 지루해야 합니다. 가치는 영리한 라벨이 아니라 일관성에서 나옵니다. 운영자(Operators)는 페이지를 비교하고, 변경 사항을 조사하며, 특정 신호가 인간의 행동인지, 기계의 접속인지, 귀속된 리퍼럴 트래픽(referral traffic)인지, 아니면 해결되지 않은 노이즈(noise)인지 이해할 수 있어야 합니다.
시스템은 또한 나중에 분류 결정(classification decisions)을 디버깅(debug)할 수 있을 만큼 충분한 컨텍스트(context)를 보존해야 합니다. 만약 요청이 AI 크롤러로 분류되었다면, 운영자는 어떤 증거가 해당 분류를 뒷받침했는지 확인할 수 있어야 합니다. 만약 방문이 AI 소스로 귀속되지 않았다면, 시스템은 해당 사이트가 AI 시스템에 보이지 않았던 것처럼 암시하는 것을 피해야 합니다.
운영자가 검사할 수 있어야 하는 것
웹마스터(webmaster) 또는 기술적 SEO 운영자는 다음과 같은 몇 가지 명확한 질문에 답할 수 있어야 합니다:
- 사람들이 어떤 페이지를 방문했는가?
- 식별된 검색 크롤러(search crawlers)가 어떤 페이지를 요청했는가?
- 식별된 AI 크롤러(AI crawlers)가 어떤 페이지에 접속했는가?
- 어떤 방문이 AI 어시스턴트(AI assistant) 또는 답변 엔진(answer engine) 리퍼러(referrers)에 귀속되었는가?
- 증거가 불완전하여 알 수 없는 상태로 남은 트래픽은 무엇인가?
이것이 바로 WebmasterID가 구축된 방향입니다: 개인정보 보호 우선 분석(privacy-first analytics), 크롤러 인텔리전스(crawler intelligence), AI 리퍼럴 귀속(AI referral attribution), 그리고 운영자 중심의 단일 인터페이스 내에서의 투명한 불확실성(transparent uncertainty).
핵심은 AI 웹에 대한 완벽한 가시성을 주장하는 것이 아닙니다. 핵심은 기존의 방문자 모델만으로 충분하다고 가장하는 것을 피하는 것입니다.
더 많은 웹 콘텐츠가 자동화된 시스템에 의해 읽히고, 요약되고, 캐싱(Caching)되고, 인용되고, 탐색됨에 따라, 분석(Analytics)은 자신이 설명하고 있는 트래픽이 어떤 종류인지에 대해 더욱 명확해져야 합니다. 유용한 제품은 가장 많은 추측을 하는 제품이 아닙니다. 운영자에게 요청(Request)에서 분류(Classification)를 거쳐 결정(Decision)에 이르기까지 신뢰할 수 있는 경로를 제공하는 제품입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기