본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 05. 23. 13:51

Anna's Archive의 llms.txt: LLM 크롤러를 위한 라우팅 가이드

요약

Anna's Archive가 LLM 크롤러를 위해 robots.txt의 대안인 llms.txt 규약을 도입하여 대량 데이터 수집을 위한 4단계 라우팅 가이드를 제공합니다. 이는 CAPTCHA 우회 비용을 줄이고 토렌트나 API를 통해 효율적인 데이터 인입을 유도하려는 전략적 움직임입니다.

핵심 포인트

  • LLM 크롤러 전용 llms.txt 규약 도입
  • GitLab, Torrent, JSON API 등 4가지 데이터 수집 경로 명시
  • CAPTCHA 우회 비용 절감을 통한 경제적 효율성 추구
  • 데이터 제공자로서의 입지 강화 및 기부 유도

Anna's Archive는 2026년 2월 18일, 단 한 명의 특정 수신자, 즉 LLM 크롤러(LLM crawlers)를 대상으로 한 페이지를 게시했습니다. 이 사이트는 64,416,225권의 도서와 95,689,473편의 논문을 보유하고 있으며, 대량 스크래핑(bulk scraping)을 저지하기 위해 설계된 CAPTCHA 뒤에서 서비스되어 왔습니다. 그리고 이제 모델 학습자(model trainers)들에게 다른 문을 이용해 달라는 정중하고 기계가 읽을 수 있는(machine-readable) 노트를 작성했습니다. 해당 페이지는 annas-archive.gl/blog/llms-txt.html 에 있으며, 영구적인 랜딩 페이지 복사본은 annas-archive.gl/llm 에 위치합니다. 이 페이지는 두 가지 요소가 겹쳐져 있습니다. 표면적인 결과물은 llms.txt 파일로, 이는 검색 크롤러(search crawlers) 대신 언어 모델(language models)을 대상으로 한다는 점에서 robots.txt를 반영한 새로운 규약(convention)입니다. 그 파일 안에 작성된 실질적인 내용은, 인간용 사이트에서 벗어나 프로젝트 측에서 크롤러가 사용하기를 권장하는 대량 엔드포인트(bulk endpoints)로 안내하는 4단계 라우팅 가이드입니다. 이 게시물은 발행 3개월 만에 이번 주 Hacker News에서 750개의 추천과 413개의 댓글을 받으며 다시 떠올랐습니다.

해당 페이지가 실제로 문서화하고 있는 내용

lms.txt 파일은 공개 검색 UI를 거치지 않고 컬렉션을 수집(ingest)할 수 있는 네 가지 방법을 명시합니다:

  1. software.annas-archive.gl에 있는 GitLab 저장소(repository)에는 모든 HTML 페이지와 사이트 자체 코드가 포함되어 있습니다.
  2. Torrent 페이지는 메타데이터(metadata)와 전체 파일을 노출합니다. 프로젝트는 카탈로그를 원하는 학습자들을 위한 진입점으로 aa_derived_mirror_metadata를 지정했습니다.
  3. /dyn/torrents.json에 있는 Torrents JSON API를 사용하면 크롤러가 목록 페이지를 스크래핑하는 대신 프로그래밍 방식으로 토렌트 세트를 열거(enumerate)할 수 있습니다.
  4. /faq#api에 있는 기부 등급(donation-tier) API는 요청자가 기부를 완료한 후 개별 파일을 반환합니다.

별도의 엔터프라이즈 등급(enterprise tier)인 /llm에서는

파일 하단에 있는 Monero 주소는 동일한 제안의 자금 지원을 받지 않는 버전입니다. 왜 섀도 라이브러리(shadow library)가 협력 제안서를 작성하는가에 대해, Anna's Archive는 사이트를 스크래핑하기로 결정한 LLM 트레이너(LLM trainer)를 상대로 그 어떤 강제력도 행사할 수 있는 위치에 있지 않기 때문입니다. llms.txt 규약은 실질적인 강제력이 없습니다. robots.txt 또한 마찬가지이며, 기존의 크롤러 준수 기록을 보면 주요 연구소(major labs)들은 자신들에게 유리할 때는 이를 읽고, 그렇지 않을 때는 무시한다는 점을 알 수 있습니다. 그렇다면 왜 이것을 게시하는 것일까요? 구조적인 베팅은 두 가지 측면이 있습니다. 첫째는 경제성입니다. 요청을 준수할 트레이너들은 6,400만 권 규모에서 CAPTCHA 우회(CAPTCHA-bypass)를 경제적으로 고통스럽게 만드는 컴퓨팅 예산(compute budgets)을 가진 이들이기도 합니다. 이들을 토렌트(torrents)와 SFTP로 안내하는 것은 양측 모두의 비용을 절감해 줍니다. 그리고 /llm 페이지의 프로젝트 제안은 우회 인프라에 절약된 비용이 기부금으로 전환될 수 있다는 점을 솔직하게 밝히고 있습니다. 둘째는 대외적 이미지(optics)입니다. 경로를 명시적으로 문서화함으로써, 이 프로젝트는 스스로를 "데이터를 가져가야 하는 대상"에서 "데이터를 제공하는 대상"으로 전환하며, 일부 트레이너들이 자신들의 학습 데이터셋(training set)이 어떻게 획득되었는지 묻는 탐색 요구(discovery requests)에 대한 방어 수단으로 결국 원하게 될 수도 있는 기업 유료 채널을 제공합니다. 두 주장 모두 트레이너들에게 실제로 필요한 법적 보호막은 아니지만, 이러한 프레이밍(framing)은 거래에서 가장 비용이 적게 드는 부분입니다. 여기서 더 넓은 신호는 llms.txt 자체에 관한 것입니다. 이 규약은 크롤러의 소비를 위해 큐레이션된, LLM 친화적인 버전의 콘텐츠를 게시하고자 하는 문서화 사이트들을 위해 도입되었습니다. 섀도 라이브러리가 이를 정반대의 사용 사례, 즉 대량 데이터 라이선스 이미지(bulk-data licensing optics)를 위해 채택하는 것은, 저자들이 아마도 염두에 두지 않았을 영역으로 규약을 확장하는 것입니다. robots.txt 스타일의 파일들이 사이트와 이를 읽는 트레이너들 사이의 사실상의 계약(de facto contract)으로 계속 굳어짐에 따라, 이러한 방식의 사용이 더 많아질 것으로 예상됩니다. 책이나 논문에 대해 검색(retrieval)을 수행하는 빌더(builder)에게 실질적인 시사점은 좁습니다.

만약 구축 중인 프로젝트가 이미 Anna's Archive로부터 데이터를 가져올 예정이었다면, 문서화된 벌크 엔드포인트(bulk endpoints)를 사용하는 것이 공개 사이트를 스크래핑(scraping)하는 것보다 더 빠르고 저렴하며 중단될 가능성도 낮습니다. 엔드포인트가 이제 문서화되었다고 해서 법적 노출(legal exposure)이 변하는 것은 아닙니다. 근본적인 코퍼스(corpus)는 애초에 해당 프로젝트에 DMCA 통지를 보냈던 저작물 세트와 동일하며, 이를 학습에 사용하기 전에 사내 법무팀(in-house counsel)과 상담하라는 실질적인 조언은 여전히 유효합니다. 화요일에 바뀐 점은 라우팅 지침(routing instructions)이 이제 일반 텍스트(plain text)로 제공된다는 것입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0