본문으로 건너뛰기

© 2026 Molayo

TechCrunch헤드라인2026. 05. 04. 22:20

AI 스타트업 퍼플렉시티가 명시적으로 AI 크롤링을 차단한 웹사이트에서 콘텐츠를 크롤링한다는 혐의로 고발

요약

인터넷 인프라 제공업체 클라우드플레르(Cloudflare)가 AI 스타트업 퍼플렉시티(Perplexity)를 상대로, 명시적으로 크롤링을 차단한 웹사이트의 콘텐츠를 우회하여 수집한다는 혐의로 고발했습니다. 클라우드플레르는 퍼플렉시티가 사용자 에이전트와 ASN 등을 변경하는 방식으로 방어 메커니즘(Robots.txt 등)을 의도적으로 무시하고 대량의 데이터를 크롤링했다고 주장합니다. 이에 대해 퍼플렉시티 측은 클라우드플레르의 주장을 '판매 캠페인'으로 일축하며 부인했습니다.

핵심 포인트

  • 클라우드플레르는 AI 스타트업이 웹사이트의 명시적 차단(Robots.txt)을 우회하여 콘텐츠를 크롤링한다고 주장하며 퍼플렉시티를 겨냥했다.
  • 퍼플렉시티는 사용자 에이전트 및 ASN 변경 등 고급 기법을 사용하여 크롤러가 탐지되는 것을 회피하는 것으로 관측되었다.
  • 클라우드플레르는 이 문제를 해결하기 위해 웹사이트 소유자가 AI 크롤링에 대한 수익을 청구할 수 있는 마켓플레이스를 출시했다.
  • 퍼플렉시티 측은 클라우드플레르의 주장을 반박하며, 자신들이 고발된 봇이 아니라고 주장했다.

인터넷 인프라 제공업체 클라우드플레르 (Cloudflare) 에 따르면, AI 스타트업 퍼플렉시티 (Perplexity) 는 명시적으로 크롤링이 원치 않는 웹사이트로부터 콘텐츠를 크롤링하고 있습니다.

월요일에 클라우드플레르는 관찰 결과를 발표했습니다. 클라우드플레르의 연구원들은 "웹 페이지를 크롤링하는 과정에서 웹사이트의 선호도를 우회하기 위해" 자신의 신원을 은폐하고 크롤링 및 크롤링 활동을 무시한 것으로 관측했다고 퍼플렉시티를 비난했습니다.

퍼플렉시티와 같은 AI 제품은 인터넷에서 대량의 데이터를 수집해야 하며, AI 스타트업은 오랫동안 허락 없이 텍스트, 이미지, 비디오를 여러 번 크롤링하여 제품을 작동시켰습니다. 최근에는 웹사이트들이 웹 표준인 Robots.txt 파일을 사용하여 검색 엔진 및 AI 기업에 인덱싱할 수 있는 페이지와 그렇지 않은 페이지를 지정하며 방어하고 있습니다. 이 노력은 아직까지 일관된 결과를 보지 못했습니다.

클라우드플레르에 따르면, 퍼플렉시티는 크롤러의 "사용자 에이전트 (user agent)" 를 변경하여 이러한 차단들을 의도적으로 우회하고 있으며, 이는 방문자의 기기 및 버전 유형을 식별하는 신호를 의미합니다. 또한 자율 시스템 네트워크 (Autonomous System Networks, ASN), 즉 인터넷에서 대규모 네트워크를 식별하는 번호를 변경했습니다.

클라우드플레르는 "이 활동은 수만 개의 도메인에서 매일 수백만 번의 요청에 걸쳐 관찰되었습니다. 우리는 기계 학습과 네트워크 신호의 조합을 사용하여 이 크롤러를 지문화 (fingerprint) 할 수 있었습니다"라고 블로그 게시글에 적었습니다.

퍼플렉시티의 대변인 제시 더워 (Jesse Dwyer) 는 클라우드플레르의 블로그 게시물을 "판매 캠페인 (sales pitch)"으로 반박했습니다. 테크크런치 (TechCrunch) 에 보내는 이메일에서 그는 게시물의 스크린샷이 "콘텐츠가 액세스되지 않았음을 보여준다는 사실"이라고 주장했습니다. 추가 이메일에서 더워는 클라우드플레르 블로그에 언급된 봇은 "우리조차도 아닙니다"라고 주장했습니다.

클라우드플레르는 고객들이 퍼플렉시티가 자신의 웹사이트를 크롤링하고 크롤링하는 것을 고소하자 처음 이 행동을 관찰했습니다. 그들은 Robots 파일에 규칙을 추가하고 퍼플렉시티의 알려진 봇을 특정적으로 차단한 후에도 해당 사이트가 크롤링되고 크롤링된다고 주장했습니다. 클라우드플레르는 이를 확인하기 위해 테스트를 수행하여 퍼플렉시티가 이러한 차단들을 우회했음을 확인했습니다.

클라우드플레르의 최고 경영자 매튜 프린스 (Matthew Prince) 는 AI 크롤러에 대해 공개적으로 반대 입장을 취했습니다.上个月, 클라우드플레르는 웹사이트 소유자와 출판사가 AI 크롤러에게 사이트를 방문하는 것을 청구할 수 있는 마켓플레이스를 출시했다고 발표했습니다. 프린스 CEO는 당시 인터넷의 비즈니스 모델, 특히 출판사를 파괴하고 있다고 경고를 울렸습니다.去年, 클라우드플레르는 봇이 웹사이트를 크롤링하여 AI 를 훈련시키는 것을 방지하기 위한 무료 도구를 출시했습니다.

이것은 퍼플렉시티가 허락 없이 크롤링했다는 혐의로 고발된 것이 아닙니다.

지난해, 와이어드 (Wired) 같은 뉴스 매체는 퍼플렉시티가 그들의 콘텐츠를 표절했다고 주장했습니다. 몇 주 후, 퍼플렉시티의 CEO 아빈드 스리니바스 (Aravind Srinivas) 는 즉시 답변할 수 없었습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 TechCrunch AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0