본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 28. 16:47

llms.txt 파일이 정말 필요할까요? Google은 아니라고 말하며, 데이터도 이에 동의합니다 (2026)

요약

llms.txt 파일의 실효성에 대한 분석을 다룹니다. Ahrefs의 데이터와 Google의 상충되는 가이드라인을 통해, 현재 이 파일이 실제 AI 추론 과정에서 얼마나 활용되고 있는지와 기술적 모순점을 살펴봅니다.

핵심 포인트

  • llms.txt 파일의 97%는 한 달간 한 번도 읽히지 않음
  • Google 가이드는 해당 파일이 불필요하다고 명시함
  • 반면 Google Lighthouse는 llms.txt 체크 기능을 출시함
  • llms.txt는 표준화된 규격이 아닌 커뮤니티 제안 사항임

Ahrefs가 137,210개의 도메인을 분석한 결과에 따르면, 현재 4곳 중 1곳 이상의 웹사이트가 llms.txt 파일을 게시하고 있지만, 해당 파일의 97%는 한 달 동안 단 한 번도 읽히지 않았습니다. 파일을 만드는 사람의 수와 이를 읽는 기계의 수 사이의 이러한 격차가 2026년 llms.txt의 핵심적인 상황입니다.

사람들이 명백한 모순을 발견하면서 혼란은 더욱 커졌습니다. Google의 문서에는 AI를 위해 특별한 기계 판독 가능 (machine-readable) 파일을 생성할 필요가 없다고 명시되어 있습니다. 그런데 Google 자체의 Chrome 도구는 llms.txt 파일을 찾는 체크 기능을 조용히 출시했습니다. 그렇다면 무엇이 맞는 걸까요?

이 포스트는 과장된 홍보 아래 숨겨진 진짜 질문에 답합니다: 실제로 llms.txt 파일이 필요한가, 증거는 무엇을 말하는가, 그리고 AI 검색에 노출되기 위해 대신 무엇을 해야 하는가.

llms.txt 파일이란 정확히 무엇인가?

llms.txt 파일은 도메인의 루트(yoursite.com/llms.txt)에 배치하는 일반 마크다운 (markdown) 파일입니다. 이 파일은 대규모 언어 모델 (LLM)에게 가장 중요한 콘텐츠에 대한 짧고 선별된 가이드를 제공하며, 해당 페이지들의 더 완전한 마크다운 버전으로 연결되는 링크를 제공합니다.

이 아이디어는 Answer.AI의 공동 창립자인 Jeremy Howard로부터 나왔으며, 그는 2024년 9월 3일에 이 관례를 제안했습니다. 그의 이유는 실용적이었습니다. LLM의 컨텍스트 윈도우 (context windows)는 웹사이트 전체를 삼키기에는 너무 작으며, 가공되지 않은 HTML은 토큰 (tokens)을 낭비하는 내비게이션, 광고, 스크립트로 가득 차 있기 때문입니다. 직접 선별한 파일은 사이트 소유자가 "무엇이 중요한지"를 말할 수 있게 해줍니다.

llms.txt 사양은 의도적으로 /robots.txt 및 /sitemap.xml의 경로 기반 접근 방식을 차용했습니다. 이 파일은 학습 데이터 (training data)로 사용되는 것이 아니라, AI가 질문에 답하는 순간인 추론 (inference) 시점에 읽히도록 설계되었습니다. 기술적으로 요구되는 부분은 단 하나뿐입니다: 프로젝트 또는 사이트 이름이 포함된 H1 태그입니다.

최소한의 파일은 다음과 같은 모습입니다:

# Acme Docs

> Acme는 X를 구축하기 위한 개발자 도구입니다. 이 파일은 AI 도구에게 가장 중요한 문서로 안내합니다.
...

그 상태에 대해 정확히 짚고 넘어갈 가치가 있습니다. llms.txt는 자발적인 커뮤니티 제안입니다. 표준화 기구(standards body)에 의해 비준된 적이 없으며, 어떤 주요 AI 벤더도 이를 공식적으로 채택하지 않았습니다. 이 단 하나의 사실이 뒤이어 나올 내용의 대부분을 설명해 줍니다.

모순: Google은 아니라고 하지만, Lighthouse는 이를 확인한다

최근의 논쟁을 촉발한 긴장 상태는 다음과 같습니다.

한편으로는, Google의 AI 최적화 가이드(AI optimization guide)는 더할 나위 없이 명확합니다: "Google 검색(생성형 AI 기능 포함)에 나타나기 위해 새로운 기계 판독 가능 파일(machine readable files), AI 텍스트 파일, 마크업(markup) 또는 마크다운(Markdown)을 생성할 필요는 없습니다. Google 검색 자체가 이를 사용하지 않기 때문입니다."

동일한 가이드에서는 llms.txt 파일을 추가하는 것이 "Google 검색에서의 가시성이나 순위에 해를 끼치지는 않지만(도움이 되지도 않음), Google 검색이 이를 무시하기 때문입니다"라고 덧붙입니다.

다른 한편으로는, Google 자체의 Chrome Lighthouse 도구는 사이트의 llms.txt 파일을 서버 오류 없이 가져올 수 있는지 확인하는 실제 퍼스트 파티(first-party) 감사 기능을 출시했습니다. 이는 커뮤니티 플러그인이 아닌 실제 Google 코드입니다. 다만, 해당 파일이 사양(spec)을 따르는지 확인하는 것이 아니라 단순히 접근 가능한지만을 테스트합니다.

그렇다면 Google은 이 파일이 쓸모없다고 말하면서 비밀리에 보상을 주고 있는 것일까요? 아닙니다. 그 해답은 덜 극적이지만 이해하기에는 더 유용합니다. 그것은 당신이 어떤 Google 제품에 묻느냐에 달려 있습니다. Lighthouse 체크는 대부분의 사람들이 보는 성능(Performance), SEO, 또는 베스트 프랙티스(Best Practices) 카테고리에 속해 있지 않습니다. 대신 검색 순위와는 다른 작업인, AI 에이전트 준비 상태(AI-agent readiness)를 평가하는 새로운 실험적 카테고리인 "에이전틱 브라우징(Agentic Browsing)" 내에 위치합니다.

이것은 Google이 스스로 모순되는 것이라기보다, 두 제품이 서로 다른 두 가지 일을 하고 있는 것에 가깝습니다. 해당 체크 항목에 숨겨진 순위 이점은 없으며, 단지 다른 차원에서 실행 중인 실험일 뿐입니다.

Google이 llms.txt에 대해 실제로 말한 내용

Google의 공개적인 입장은 놀라울 정도로 일관적이며, 직설적이었습니다.

2025년 4월, Mueller는 llms.txt를 키워드 메타 태그 (keywords meta tag)에 비유했습니다. 이는 수십 년 전 사이트 소유자들이 내용을 채워 넣는 바람에 검색 엔진들이 더 이상 신뢰하지 않게 되어 버려진 태그입니다. 그의 요점은 다음과 같습니다. llms.txt 파일은 사이트가 스스로에 대해 주장하는 검증되지 않은 정보라는 것입니다. 그는 또한 "서버 로그를 보면 그들이 이를 확인조차 하지 않는다는 것을 알 수 있습니다"라고 언급했습니다.

그는 2025년 6월 Bluesky에서 더욱 직설적으로 말했습니다. 그는 "현재 어떤 AI 시스템도 llms.txt를 사용하지 않습니다"라고 적었습니다.

Google의 Gary Illyes는 Search Central Live Deep Dive 이벤트 무대에서 동일한 내용을 언급했습니다. Google은 llms.txt를 지원하지 않으며, 지원할 계획도 없습니다.

가장 깊이 있는 비판은 2026년 6월, Mueller가 Search Off the Record 팟캐스트에서 이 형식이 구조적으로 신뢰하기 어려운 이유를 설명했을 때 나왔습니다. 핵심 문제는 당신이 스스로에 대해 작성한 파일은 바로 당신이 작성했다는 점 때문에 약한 신호 (weak signal)가 된다는 것입니다.

증거: llms.txt 파일은 대부분 읽히지 않는다

의견은 의견일 뿐입니다. 서버 로그는 별개의 문제입니다. 2025년과 2026년에 진행된 여러 독립적인 연구들은 AI 봇이 실제로 llms.txt를 가져오는지(fetch) 조사했으며, 결과는 일관되었습니다.

가장 규모가 큰 것은 137,210개의 도메인을 대상으로 한 Ahrefs의 연구입니다. 주요 조사 결과는 다음과 같습니다:

  • 28%의 사이트가 llms.txt 파일을 게시했으며, 이는 "4곳 중 1곳 이상"입니다.
  • 해당 파일 중 97%는 2026년 5월에 요청(request)을 전혀 받지 못했습니다.
  • 발생한 가져오기(fetch) 중 96%는 봇(bot)에 의한 것이었으며, 그 봇들 중 77%는 AI 도구가 전혀 아니었습니다.
  • 가져오기 수행자의 단일 최대 카테고리는 SEO 감사 도구(SEO audit tools)로 21.7%를 차지했으며, 이는 그 어떤 개별 AI 봇보다 높은 수치였습니다.
  • 네 종류의 AI 봇을 모두 합쳐도 이 파일들에 대한 전체 요청의 19.5%에 불과했으며, ChatGPT와 같은 도구에서 실제로 답변을 생성하는 검색 봇(retrieval bots)은 전체 중 가장 작은 비중을 차지했습니다.

Ahrefs의 자체 결론은 다음과 같습니다: "만약 당신의 목표가 ChatGPT, Perplexity 또는 AI Overviews에 나타나는 것이라면, llms.txt 파일은 대체로 장식에 불과합니다." 동일한 연구에 따르면, AI 봇은 llms.txt 파일이 없는 사이트에서는 해당 파일을 탐색조차 하지 않았습니다. 그들은 단순히 그것을 찾으러 가지 않습니다.

다른 연구들도 동일한 결론에 도달했습니다:

연구범위주요 결과
Ahrefs137,210개 도메인llms.txt 파일의 97%가 한 달 동안 요청을 전혀 받지 않음
...

Reboot Online 실험은 통제된 환경이었기에 가장 결정적인 증거를 제시합니다. 그들은 오직 llms.txt를 통해서만 링크된 테스트 페이지들을 게시한 후 3개월 동안 관찰했습니다. 동일한 도메인의 일반적인 링크 페이지에서는 AI 봇의 활동이 나타났음에도 불구하고, llms.txt를 통해서는 어떤 AI 봇도 도착하지 않았습니다. 즉, 이 파일은 발견 경로 (discovery path) 역할을 하지 못했습니다.

누가 llms.txt를 게시하는가 vs 실제로 누가 읽는가

만약 거의 어떤 AI 엔진도 이 파일을 읽지 않는다면, 왜 그렇게 많은 사이트들이 이를 게시하고 있을까요? 그것은 llms.txt 파일을 게시하는 것과 AI 시스템이 이를 소비하는 것은 완전히 다른 문제이며, 여러분이 듣고 있는 대부분의 "채택 (adoption)"은 후자가 아닌 전자에 해당하기 때문입니다.

많은 게시 작업이 자동으로 이루어집니다. Mintlify는 자신이 호스팅하는 모든 문서 사이트에 대해 llms.txt 파일을 자동으로 생성하여, 수천 개의 개발 도구 (dev-tool) 문서에 아무런 노력 없이 즉시 파일을 제공합니다. Yoast SEO 플러그인은 2025년 6월 버전 25.3에서 자동 llms.txt 생성 기능을 추가했습니다. Cloudflare 또한 고객 도메인을 위해 이를 생성할 계획이라고 발표했습니다. 채택 수치는 올라가지만, 읽기 수치는 올라가지 않습니다.

하지만, 현재 존재하는 하나의 진정한 사용 사례가 있습니다: 바로 개발자 문서 (developer documentation)입니다. 이 파일의 설계 목적 자체가 도구의 문서를 깨끗한 컨텍스트 (context)로서 LLM에 제공하는 것이며, 이것이 개발자 고객층이 두터운 기업들이 파일을 게시하는 이유입니다. 예를 들어, Anthropic은 Claude 개발자 문서 전체를 인덱싱하는 llms.txt를 제공합니다. AI 코딩 어시스턴트가 이미 도구의 문서 내부에서 작동하고 있을 때, 이렇게 큐레이션된 파일은 어시스턴트가 문서를 효율적으로 탐색하는 데 도움을 줄 수 있습니다.

그것이 실제 경계선입니다. llms.txt는 코딩 어시스턴트를 위한 개발자 문서용 편의 기능이지, 공개적인 AI 검색 엔진을 위한 발견 또는 순위 신호 (discovery or ranking signal)가 아닙니다. 어떤 주요 LLM 제공업체도 크롤러 (crawler)가 콘텐츠를 찾거나 순위를 매기는 방식의 일부로 이를 공식적으로 채택하지 않았습니다.

그렇다면 llms.txt 파일을 만들어야 할까요?

솔직한 답변은 대부분의 사이트에게 이것은 선택 사항이며, 리스크가 적고, 우선순위도 낮다는 것입니다. 결정하는 방법은 다음과 같습니다.

다음의 경우라면 건너뛰세요:

  • 귀하의 유일한 목표가 Google 검색이나 ChatGPT, Perplexity와 같은 AI 답변 엔진에서의 가시성 확보인 경우. 데이터에 따르면 이것은 큰 영향을 미치지 못할 것입니다.
  • 큐레이션된 파일을 정확하게 유지하는 것이 실제 유지보수 작업이 되는 대규모 사이트를 운영하는 경우.
  • 핵심적인 기술적 SEO (Search Engine Optimization) 및 크롤링 가능성 (Crawlability)이 아직 탄탄하지 않은 경우. 그것부터 먼저 해결하세요.

다음의 경우라면 고려해 보세요:

  • AI 코딩 에이전트 (AI coding agents)가 읽는 개발자 문서나 API 문서를 게시하는 경우.
  • 이미 로그에서 Claude, OpenAI 또는 기타 에이전트 봇을 확인한 경우.
  • 파일을 만드는 데 몇 분밖에 걸리지 않으며, 이득이 아무리 미미하더라도 비용이 들지 않는 소규모 사이트를 운영하는 경우.

다시 말해, 이는 기껏해야 2분 정도의 실험일 뿐이며, AI 가시성을 실제로 높이는 작업을 대체할 수는 없습니다.

AI 검색에 노출되기 위해 대신 해야 할 일

AI 엔진에 의해 언급되고 인용되기를 원한다면, 특별한 파일은 건너뛰고 기본 사항을 잘 수행하세요. 실질적으로 이는 다음을 의미합니다:

  • 핵심 콘텐츠를 크롤링 가능한 HTML로 유지하세요. 중요한 콘텐츠가 무거운 클라이언트 사이드 자바스크립트 (Client-side JavaScript)를 실행한 후에만 나타난다면, 일부 크롤러는 이를 영영 보지 못할 수도 있습니다. 초기 HTML에서 접근 가능하게 만드는 것이 그 어떤 텍스트 파일보다 훨씬 더 영향력이 큽니다.
  • 구조화된 데이터 (Structured data)를 추가하세요. 기사, FAQ, 제품에 대한 스키마 마크업 (Schema markup)은 기계가 추측 없이 파싱할 수 있는 형식으로 콘텐츠를 변환해 줍니다.
  • AI 크롤러를 허용하세요. robots.txt와 CDN이 실제로 OAI-SearchBot, GPTBot, PerplexityBot의 통과를 허용하는지 확인하세요. 차단된 봇은 아무것도 읽지 못합니다.
  • 답변을 먼저 제시하는, 답변 형태의 진정으로 유용한 콘텐츠를 작성하세요.
  • AI 엔진이 이미 의존하고 있는 신뢰도 높은 소스 전반에 걸쳐 엔티티 일관성 (Entity consistency)과 제3자 인용 (Third-party citations)을 구축하세요.

결론

llms.txt 파일은 사기가 아니며, 마법 같은 순위 상승 레버도 아닙니다. 그것은 AI 코딩 에이전트를 위한 실제 문제를 해결하기 위해 만들어진 사려 깊고 자발적인 관례였으나, 원래 의도와는 다르게 AEO (Answer Engine Optimization) 열풍에 휩쓸린 것입니다.

Google은 검색을 위해 이러한 파일이 필요하지 않다고 말하며, 서버 로그 또한 이에 동의합니다. 이 파일들의 97%는 읽히지 않은 채 방치되어 있습니다. 만약 개발자 문서 (developer docs)를 운영하고 있다면, llms.txt 파일을 게시하는 것은 합리적이고 비용이 적게 드는 조치입니다. 하지만 AI 가시성 (AI visibility)을 쫓는 그 외의 모든 이들에게는, 크롤링 가능한 HTML (crawlable HTML), 구조화된 데이터 (structured data), 그리고 인용할 가치가 있는 콘텐츠에 시간을 쓰는 것이 훨씬 더 유익합니다.

중요한 신호는 당신이 스스로에 대해 작성한 파일이 아닙니다. 웹의 나머지 부분과 이를 읽는 기계들이 당신이 실제로 게시한 내용을 찾을 수 있는지, 그리고 신뢰할 수 있는지 여부입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0