본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 15. 14:57

Reddit이 2026년에 인증되지 않은 JSON을 차단한 이유 (그리고 여전히 Reddit 데이터를 가져오는 방법)

요약

Reddit이 AI 학습 데이터의 수익화를 위해 인증되지 않은 .json 엔드포인트 접근을 차단하기 시작했습니다. 이는 Google, OpenAI와의 데이터 라이선스 계약을 보호하고 무단 스크레이핑을 방지하기 위한 조치입니다.

핵심 포인트

  • 2026년 5월부터 인증되지 않은 .json 엔드포인트 접근 차단
  • AI 학습용 데이터 라이선스 수익 모델 보호 목적
  • 무단 스크레이핑 방지를 위한 403 Forbidden 오류 발생
  • 공식 API 및 인증된 OAuth 액세스 사용 권장

핵심 요약 (Key takeaways)

  • 2026년 5월 28일, Reddit은 인증되지 않은 .json 엔드포인트(endpoints)를 폐기한다고 발표했습니다. 며칠 지나지 않아 URL 끝에 .json을 붙이는 방식은 403 오류를 반환하기 시작했으며, 이는 대부분의 오픈 소스(open-source) Reddit 스크레이퍼(scrapers)를 조용히 무력화했습니다.
  • 실제 동력은 AI와 돈입니다. Reddit의 20년 치 인간 대화 데이터는 라이선스가 부여된 AI 학습 자산이 되었습니다 (2024년 Google 및 OpenAI와의 계약을 통해 약 1억 3천만 달러 수익 달성). 무료 스크레이핑은 이 수익 구조를 저해했기에, Reddit은 데이터를 차단하고 대가 없이 가져가는 이들을 고소하고 있습니다.
  • Reddit이 밝힌 이유는 '책임 없는' 스크레이핑, 봇(bot) 및 에이전트(agentic) 남용, 그리고 명확해진 Rule 8입니다. Reddit은 개발자들을 인증된 액세스(authenticated access)와 Devvit로 유도하고 있으며, RSS를 다음 폐쇄 대상으로 지목했습니다.
  • 여전히 규정을 준수하며 공개된 Reddit 데이터를 얻을 수 있습니다. 공식(유료) API, 인증된 액세스, 또는 액세스 경로를 유지하며 정규화된 JSON을 반환하는 관리형 API(managed API)를 사용할 수 있지만, 무료로 .json을 붙여 사용하던 시대는 끝났습니다.

수년 동안 Reddit에서 구조화된 데이터(structured data)를 가져오는 가장 간단한 방법은 누구나 아는 트릭이었습니다. 어떤 Reddit URL이든 끝에 .json을 붙이면 API 키, OAuth, 계정 없이도 깔끔한 JSON을 받을 수 있었습니다. 이 방식은 대부분의 오픈 소스 Reddit 스크레이퍼, 연구 스크립트, 봇, 그리고 데이터 파이프라인(data pipelines)을 조용히 뒷받침해 왔습니다.

이제 그 문이 닫혔습니다. 2026년 5월 28일, Reddit은 r/modnews에 Protecting communities from scrapers and platform abuse라는 글을 게시하여 인증되지 않은 .json 액세스를 차단할 것이라고 발표했습니다. 며칠 지나지 않아, 별도의 폐기 유예 기간 없이 요청에 403 Forbidden 응답이 돌아오기 시작했습니다. 만약 여러분의 스크레이퍼가 "여전히 실행은 되는데" 아무것도 반환하지 않는다면, 바로 이 이유 때문입니다.

이 포스트는 Reddit이 이런 조치를 취했는지 — 그 답은 주로 AI와 돈에 있습니다 — 그리고 2026년에 여전히 규정을 준수하며 Reddit 데이터를 가져올 수 있는 방법에 대해 설명합니다.

실제로 무엇이 고장 났는가

Reddit의 표현을 빌리자면 다음과 같습니다: "인증되지 않은 JSON 액세스 중단: 인증되지 않은 .json 엔드포인트(endpoints)를 폐쇄할 예정입니다. 이러한 엔드포인트는 책임 소재 없이 Reddit을 스크래핑(scrape)하는 데 사용될 수 있습니다. 로그인된 인증된 액세스에는 영향을 미치지 않습니다."

즉, 다음과 같습니다:

  • 익명 .json 요청은 이제 403 오류를 반환합니다. https://www.reddit.com/r/<sub>/top.json 및 유사한 주소들은 더 이상 인증 없이 데이터를 반환하지 않습니다.
  • 많은 도구에서 조용히 실패합니다. 많은 스크래퍼(scrapers)가 403(또는 빈 응답/리다이렉트 응답)을 받지만, 겉으로는 "성공"한 것처럼 보여서 파이프라인(pipelines)이 명시적인 에러를 내는 대신 조용히 작동을 멈추게 됩니다.
  • 인증된 액세스는 여전히 작동합니다. 로그인된 세션과 공식 OAuth API는 영향을 받지 않으며, 이것이 이번 변경의 핵심 목적입니다.
  • 다음은 RSS입니다. 동일한 게시물에서 Reddit은 RSS를 "스크래핑을 위한 또 다른 흔한 접점(surface)"이라고 불렀으므로, 피드(feed) 기반 액세스 또한 주의가 필요합니다.

Reddit이 이를 수행한 이유

기술적인 변화는 작습니다. 그 이면에 있는 동기가 더 큰 이야기이며, 맞습니다, 이는 주로 **AI 챗봇(chatbots)과 봇 트래픽(bot traffic)**에 관한 것입니다.

Reddit의 데이터는 AI의 금광이자 하나의 상품이 되었습니다

Reddit은 20년 동안 축적된 실제 인간의 질문, 답변, 의견을 담고 있습니다. 이는 대규모 언어 모델(Large Language Models, LLMs)을 유용하게 만드는 바로 그 텍스트이며, AI 답변에서 가장 많이 인용되는 소스 중 하나입니다. 이것이 명확해지자, Reddit은 자신의 아카이브(archive)를 라이선스 상품으로 전환했습니다:

  • Google과의 연간 약 6,000만 달러 규모의 라이선스 계약 (2024년 2월): Reddit 데이터를 사용하여 Gemini를 학습시키기 위함입니다.
  • OpenAI와의 라이선스 계약 (2024년 5월): ChatGPT를 위한 계약입니다.
  • 2024년 데이터 라이선스 수익 약 1억 3,000만 달러 — 이는 Reddit 전체 매출의 약 10%에 달합니다.

데이터가 곧 상품인 상황에서, 무료로 제공되던 append-.json 엔드포인트는 데이터 유출 경로였습니다. 이는 누구든지 — 특히 AI 기업들이 — 유료 계약의 가치를 훼손하며 동일한 데이터를 아무런 대가 없이 가져갈 수 있게 했기 때문입니다.

AI 봇들은 "책임 소재 없이" 이를 무료로 가져가고 있었습니다

이 부분은 대부분의 사람들이 직관적으로 맞게 추측하는 지점입니다. AI 학습용 크롤러(crawlers)와 실시간 "그라운딩 (grounding)" 에이전트(답변 시점에 Reddit 스레드를 가져오는 어시스턴트)의 폭발적인 증가는, 신원 확인이 필요 없는 정확한 엔드포인트(endpoints)를 대상으로 엄청난 규모의 자동화된 트래픽을 생성했습니다. Reddit은 이를 다음과 같이 직접적으로 명명합니다: "대규모 스크레이핑 (large-scale scraping), 스팸 네트워크, 에이전트형 계정 생성, 그리고 자동화된 남용 (automated abuse)." 인증되지 않은 .json 경로는 이 모든 행위가 이루어지는 익명의 앞문 역할을 했습니다. 즉, 속도 제한(rate-limit)을 걸거나, 비용을 청구하거나, 차단(ban)할 수 있는 열쇠 없이 데이터를 가져가는 통로였던 것입니다.

그래서 Reddit은 법정에서 집행을 시작했습니다

.json을 폐쇄하는 것은 더 광범위한 캠페인의 기술적인 절반에 불과합니다:

  • Reddit은 Anthropic을 고소했습니다 (2025년 6월). Anthropic의 봇들이 라이선스 계약을 거부한 후, Reddit을 100,000회 이상 크롤링하고 robots.txt를 우회했다고 주장했습니다.
  • 이후 Reddit은 Perplexity와 세 곳의 스크레이핑 업체인 SerpApi, Oxylabs, AWM Proxy를 고소했습니다 (2025년 10월).
  • Reddit은 AI 스크레이핑에 대한 우려로 Internet Archive의 Wayback Machine을 차단했습니다 (2025년 8월).

익명의 .json을 차단하는 것은 프로토콜 수준에서 "라이선스를 취득하거나, 아니면 가져가지 마라"를 강제하는 방법입니다.

이는 더 큰 "닫히는 웹 (closing web)"의 일부입니다

Reddit은 더 넓은 변화를 보여주는 가장 주목할 만한 사례입니다. AI가 웹 데이터를 상업적으로 가치 있게 만듦에 따라, 개방적이고 익명이며 .json을 덧붙여 사용할 수 있었던 웹은 닫히고 있습니다. 사이트들은 데이터를 게이트웨이로 관리하고 수익화하고 있으며, Cloudflare는 이제 많은 고객을 위해 기본적으로 AI 크롤러를 차단하고 있고, "크롤링당 과금 (pay-per-crawl)" 방식이 현실화되고 있습니다. 격식 없는 익명의 공공 데이터 접근 시대가 끝나가고 있습니다.

왜 당신의 스크레이퍼가 이제 403 오류를 받는지 (당신의 자격 증명 문제가 아닙니다)

이 문제에 직면한 팀들은 이것이 인증(auth)이나 속도 제한(rate-limit) 버그라고 가정합니다. 하지만 대개 그렇지 않습니다. Reddit의 2026년 집행 조치는 또한 다음 사항에 의존합니다:

  • TLS 핑거프린팅 (TLS fingerprinting) — 일반적인 클라이언트(requests, wget, 기본 curl)는 완벽한 헤더를 갖추고 있더라도 TLS 핸드셰이크(handshake)를 통해 식별되어 차단됩니다.
  • IP 평판 (IP reputation) — 데이터 센터 및 클라우드 IP(GitHub Actions, Vercel, 일반적인 호스트)는 강력하게 플래그(flag)가 지정됩니다. 동일한 요청이라도 주거용 브라우저(residential browser)에서는 작동하지만, 서버에서는 403 오류가 발생하는 경우가 많습니다.
  • 익명 폴백(anonymous fallback) 부재 — 이 모든 것을 흡수해 주던 .json 경로가 사라졌습니다.

이것이 바로 "User-Agent를 추가하라"거나 "요청 속도(rate)를 줄여라"라는 조언이 더 이상 통하지 않는 이유입니다. 차단은 요청 속도가 아니라, 액세스 정책(access-policy) 및 핑거프린트(fingerprint) 계층에서 이루어지기 때문입니다.

2026년에 Reddit 데이터를 가져오는 방법 (준수 가능한 옵션)

무료 익명 경로는 끝났지만, 공인된 경로를 통해 공개된 Reddit 데이터에 여전히 접근할 수 있습니다. 순위는 다음과 같습니다:

1. 공식 Reddit Data API / Devvit

Reddit은 개발자들에게 승인된 경로인 **인증된 데이터 API (authenticated Data API, OAuth)**와 Devvit 개발자 플랫폼을 안내합니다:

  • 비상업적 (non-commercial) 용도로는 무료이며, 분당 약 100회의 요청으로 제한됩니다.
  • 상업적 접근은 요청 1,000건당 약 $0.24이며, 엔터프라이즈 계약은 연간 약 $12,000부터 시작합니다.

앱을 등록하고 OAuth 과정을 수행할 수 있으며, 사용 목적이 Reddit의 약관에 부합할 때 가장 좋은 방법입니다.

2. 인증된 / 세션 기반 접근 (Authenticated / session-based access)

로그인된 브라우저 세션(쿠키, Playwright를 통한 실제 브라우저)은 인증된 접근이 영향을 받지 않기 때문에 여전히 작동합니다. 소규모의 신중한 작업에는 실행 가능하지만, 세션이 만료되거나 핑거프린트가 플래그 지정되는 등 취약하며, 모든 유지보수와 서비스 약관(terms-of-service) 위반 리스크를 직접 부담해야 합니다.

3. 관리형 Reddit API (Crawlora)

인증(auth), 프록시(proxies), 핑거프린트(fingerprints)를 직접 관리하거나, Reddit이 규칙을 변경할 때마다 스크래퍼(scraper)를 새로 작성하고 싶지 않다면, 관리형 API(managed API)가 그 역할을 대신해 줍니다. Crawlora의 Reddit API는 하나의 API 키를 통해 검색, 게시물, 댓글 스레드, 서브레딧 피드(subreddit feeds)에 대한 **정규화된 JSON (normalized JSON)**을 반환하며, Reddit이 접근 경로를 강화하더라도 이를 지속적으로 유지합니다.

curl -G "https://api.crawlora.net/api/v1/reddit/subreddit/webdev/posts" \
  -H "x-api-key: $CRAWLORA_API_KEY" \
  --data-urlencode "sort=hot" \
...
import requests

resp = requests.get(
...

게시물, 댓글, 피드를 깔끔한 JSON 형태로 받을 수 있으며, Reddit의 변경 사항을 쫓아다닐 필요가 없습니다. 이것이 바로 당신이 비용을 지불하고 얻는 가치입니다.

준수 사항에 관한 참고 노트

Reddit의 업데이트된 데이터 API 약관 및 규칙 8 (Rule 8)은 이제 자동화된 남용(automated abuse)과 승인되지 않은 스크래핑(unauthorized scraping)을 명시적으로 다루고 있으며, 2026년 5월의 변경 사항은 Reddit의 입장을 명확히 보여줍니다. 어떤 경로를 선택하든 다음 사항을 준수해야 합니다:

  • 공개된 (public) 게시물, 댓글, 서브레딧만 수집하십시오. 비공개(private), 격리(quarantined) 또는 개인 데이터는 절대 수집해서는 안 됩니다.
  • **사용자 이름과 댓글 텍스트를 개인 데이터 (GDPR/CCPA)**로 취급하십시오. 저장하는 데이터를 최소화하고, 특히 AI 학습 용도로 사용할 경우 법적 근거를 마련해야 합니다.
  • 공식 API 또는 라이선스/관리형 경로를 우선적으로 사용하고, 상업적 목적이나 AI 사용 전에 Reddit의 약관과 현지 법률을 검토하십시오.

본 내용은 법적 조언이 아닙니다. 공개 데이터와 개인 데이터의 상세한 차이점은 2026년에 웹 스크래핑은 합법인가? (Is web scraping legal in 2026?)를 참조하십시오.

출처

출처

이 내용의 위치

.json을 덧붙이던 시대는 끝났지만, Reddit은 커뮤니티 연구, 브랜드 및 제품의 감성(Sentiment), 그리고 AI를 위한 그라운딩 데이터(Grounding data)를 위한 가장 풍부한 소스 중 하나로 남아 있습니다. 실질적인 방법(검색, 게시물, 댓글, 서브레딧 피드, 페이지네이션)에 대해서는 2026년에 Reddit을 스크레이핑하는 방법을 참조하십시오. 스레드를 검색 파이프라인(Retrieval pipeline)이나 에이전트(Agent)에 공급하려면 MCP 통합AI 에이전트 웹 데이터 워크플로우를 확인하십시오.

먼저 무료로 체험해 보세요: Playground에서 엔드포인트(Endpoint)를 테스트하고, API 문서에서 스키마(Schema)를 읽고, 가격 페이지에서 크레딧 비용을 검토하십시오.

자주 묻는 질문 (Frequently asked questions)

왜 Reddit은 인증되지 않은 .json 엔드포인트를 차단했나요?

2026년 5월 28일, Reddit은 '책임 없는' 스크래핑 (scraping)을 방지하고 봇 및 에이전트형 (agentic) 남용을 억제하기 위해 인증되지 않은 .json 접근을 폐기한다고 발표했습니다. 더 큰 동기는 상업적인 이유입니다. Reddit의 데이터는 이제 라이선스가 부여된 AI 학습 자산이며 (2024년 Google 및 OpenAI와의 계약 규모는 약 1억 3,000만 달러에 달함), 무료 .json 경로는 누구나 — 특히 AI 기업들이 — 비용을 지불하지 않고 해당 데이터를 가져갈 수 있게 했습니다.

2026년에도 Reddit .json URL이 여전히 작동하나요?

아니요. 2026년 5월 말 이후부터 Reddit URL 끝에 .json을 붙이면 인증되지 않은 요청에 대해 403 Forbidden 오류를 반환합니다. 로그인된 세션과 공식 OAuth API는 여전히 작동하며, Reddit은 RSS를 다음에 폐쇄할 가능성이 있는 영역으로 지목했습니다.

User-Agent를 사용해도 왜 제 Reddit 스크래퍼가 403 오류를 받나요?

차단 기준이 더 이상 요청 속도 (rate)나 헤더 (headers)에 있지 않기 때문입니다. Reddit은 TLS 핑거프린팅 (TLS fingerprinting) 및 IP 평판 검사 (IP-reputation checks)를 사용하므로, 일반적인 클라이언트 (requests, wget, 기본 curl)와 데이터 센터 또는 클라우드 IP는 유효한 User-Agent를 사용하더라도 403 오류를 받게 됩니다. 이를 흡수해 주던 익명의 .json 폴백 (fallback) 기능은 사라졌습니다.

현재 Reddit 데이터를 가져오는 공식적인 방법은 무엇인가요?

Reddit의 인증된 데이터 API (Data API, OAuth)와 Devvit 개발자 플랫폼입니다. 비상업적 용도로는 분당 약 100회의 요청까지 무료이며, 상업적 접근은 1,000회 요청당 약 0.24달러, 엔터프라이즈 계약은 연간 약 12,000달러부터 시작합니다.

2026년에 Reddit 스크래핑은 합법인가요, 아니면 허용되나요?

Reddit의 업데이트된 규칙 8 (Rule 8) 및 데이터 API 약관은 승인되지 않은 스크래핑을 제한합니다. 공개 데이터는 일반적으로 접근 가능하지만, 공개된 콘텐츠만 수집하고 사용자 이름과 댓글을 개인 데이터로 취급해야 하며, 공식 API 또는 라이선스/관리된 경로를 사용하는 것이 권장됩니다. 상업적 또는 AI 용도로 사용하기 전에 Reddit의 약관과 현지 법률을 검토하십시오. 이는 법적 조언이 아닙니다.

스크래퍼를 유지 관리하지 않고도 여전히 Reddit 데이터를 가져올 수 있는 방법은 무엇인가요?

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0