arXiv논문2026. 05. 14. 14:25

Canary Tokens를 이용한 AI 웹 스크레이퍼 식별

요약

본 논문은 웹사이트 소유자가 자신들의 콘텐츠를 사용하는 AI 관련 웹 스크레이퍼를 정확하고 자동으로 식별할 수 있는 새로운 기술을 제안합니다. 기존의 스크레이퍼 식별 방법들이 신뢰성이나 확장성에 문제가 있었던 점을 개선했습니다. 이 기술은 방문하는 각 스크레이퍼에게 고유한 'canary tokens'를 포함하는 동적 웹사이트를 호스팅하고, LLM에 사이트 정보를 요청하여 특정 토큰이 포함된 출력을 일관되게 생성하는지 확인하는 방식으로 작동합니다.

핵심 포인트

웹 스크레이핑 데이터는 LLMs의 품질 향상에 기여하지만, 법적/윤리적 문제를 야기할 수 있습니다.
효과적인 스크레이퍼 접근 제어를 위해서는 스크레이퍼 자체를 정확하게 식별하는 것이 필수적입니다.
제안된 방법은 고유한 canary tokens를 사용하여 LLM이 특정 스크레이퍼에 노출되었는지 여부를 추론합니다.
실험 결과, 이 방식은 공개되지 않은 다양한 스크레이퍼가 어떤 LLM에 데이터를 공급하는지 신뢰성 있게 식별할 수 있음을 입증했습니다.

사전 학습 (pre-training)부터 쿼리 시점 증강 (query-time augmentation)에 이르기까지, 웹에서 스크레이핑된 데이터는 대규모 언어 모델 (LLMs)이 생성하는 콘텐츠의 품질과 문맥적 관련성을 향상시키는 데 도움을 줍니다. 그러나 LLMs에 데이터를 공급하기 위한 대규모 웹 스크레이핑 (web scraping)은 사이트 안정성에 영향을 미칠 수 있으며 법적, 개인정보 보호 또는 윤리적 문제를 일으킬 수 있습니다. 웹사이트 소유자가 이러한 문제나 기타 우려 사항으로 인해 사이트 내 LLM 관련 웹 스크레이핑을 제한하고자 한다면, Robots Exclusion Protocol과 같은 스크레이퍼 접근 제어 메커니즘을 사용할 수 있습니다. 이러한 메커니즘이 가장 효과적으로 작동하려면, 사이트 소유자가 먼저 제한하고자 하는 스크레이퍼를 (예: User-Agent 문자열을 통해) 식별해야 합니다. LLM 관련 스크레이퍼를 식별하는 기존 메커니즘은 기업의 자발적인 공개, 연구자들의 일회성 실험, 또는 크라우드 소싱된 보고서에 의존하고 있으며, 이러한 방법들은 신뢰할 수 없거나 확장 가능하지 않습니다. 본 논문은 LLM 관련 스크레이퍼를 정확하고 자동으로 추론하기 위한 새로운 기술을 제안합니다. 우리는 방문하는 각 스크레이퍼에게 고유한 canary tokens를 제공하는 동적 웹사이트를 호스팅한 다음, LLMs에게 우리 사이트에 대한 정보를 요청합니다. 만약 LLM이 특정 스크레이퍼에 고유한 토큰을 포함하는 출력을 일관되게 생성한다면, 이는 해당 스크레이퍼에 노출되었다는 증거를 제공합니다. 22개의 운영 중인 LLM 시스템을 대상으로 한 실험을 통해, 우리는 우리의 접근 방식이 기업에 의해 공개적으로 알려지지 않았거나 공개되지 않은 여러 스크레이퍼를 포함하여, 어떤 스크레이퍼가 어떤 LLM에 데이터를 공급하는지를 신뢰성 있게 식별할 수 있음을 입증합니다. 우리의 접근 방식은 권한이 없는 제3자가 어떤 스크레이퍼가 어떤 LLM에 데이터를 제공하는지 추론할 수 있는 유망한 경로를 제공하며, 잠재적으로 원치 않는 스크레이핑에 대한 더 나은 제어를 가능하게 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Canary Tokens를 이용한 AI 웹 스크레이퍼 식별

요약

핵심 포인트

댓글