
웹 스크래핑(Web Scraping)의 시대는 끝났다. 이제 '바이브 스크래핑(Vibe Scraping)'이 그 자리를 대신한다
요약
기존의 복잡한 Python 기반 웹 스크래핑 방식이 Claude Code와 MCP 서버를 활용한 '바이브 스크래핑'으로 전환되고 있습니다. 개발자가 프록시, CAPTCHA, HTML 구조 변경에 대응하던 '개발세'를 지불하는 대신, 자연어로 데이터를 요청하여 구조화된 결과를 얻는 새로운 패러다임을 소개합니다.
핵심 포인트
- 기존 스크래핑은 유지보수 비용(개발세)이 매우 높음
- Claude Code와 MCP 서버를 통해 자연어로 데이터 추출 가능
- HTML 구조 변경 등 복잡한 기술적 장애물 해결
- 데이터 접근 계층의 복잡성을 AI가 대신 처리
저는 Amazon을 스크래핑하기 위한 Python 스크립트를 가지고 있었습니다. 280줄의 코드, 3개의 라이브러리, 수동으로 설정한 프록시 로테이션(proxy rotation), 이를 계속 실행하기 위해 24시간 가동되는 VPS, 그리고 스크립트가 충돌할 때마다(충돌이 너무 잦아서 알림을 읽는 것조차 그만두었을 정도였습니다) 저에게 이메일을 보내주는 cron 작업까지 포함되어 있었죠.
Amazon이 HTML 구조를 변경할 때마다, 저는 이미 한 번 작성했던 셀렉터(selector)를 재구축하기 위해 꼬박 하루를 허비해야 했습니다. 마치 제가 존재한다는 사실조차 모르는 페이지를 쫓아다니는 기분이었습니다.
요약(TLDR): 6주 전, 저는 1개의 MCP 서버를 Claude Code에 연결했고, 웹 데이터 수집을 위한 Python 스크립트 작성을 완전히 중단했습니다. 이 글은 그 이후 무엇이 가능해졌는지, 그리고 기업 데이터 팀들이 연간 8만 달러 규모의 계약 뒤에 숨겨두었던 종류의 **시장 정보(market intelligence)**를 누가 이제 막 물려받게 되었는지에 관한 이야기입니다.
6주 전, 저는 Claude Code에 BrightData를 추가하고, 제가 원하는 것을 평범한 영어로 설명했습니다. 그러자 구조화된 데이터(structured data)가 돌아왔습니다. 이는 기존 방식의 더 빠른 버전이 아니라, 완전히 다른 범주의 무언가였습니다.
기존 방식은 개발자 세금(Dev Tax)이었다
웹 스크래핑(Web scraping)에는 실제 비용이 발생했으며, 그것은 데이터 자체가 아니었습니다.
BeautifulSoup, Playwright, Puppeteer 등 원하는 스크래핑 라이브러리가 필요했습니다. 대부분의 사이트는 동일한 IP에서 수십 번의 요청이 들어오면 차단하기 시작하므로 프록시 로테이션(proxy rotation) 서비스가 필요했습니다. CAPTCHA를 처리해야 했으며, 이는 제3자 해결 서비스나 6주마다 깨지는 우회 로직(bypass logic) 중 하나를 선택해야 함을 의미했습니다.
이를 지속적으로 실행하기 위한 VPS 또는 클라우드 함수(cloud function)가 필요했습니다. 그리고 대상 사이트가 구조를 변경할 때마다 이 모든 것을 유지 관리해야 했습니다. 대형 이커머스 사이트들은 귀하의 파이프라인이 자신들에게 의존하고 있다는 사실에는 전혀 개의치 않고, 예고 없이 끊임없이 구조를 변경합니다.
Amazon의 모든 HTML 업데이트는 마치 귀하의 메인 빌드를 조용히 너프(nerf)하는 패치 노트처럼 느껴졌습니다. 운영 환경(prod)이 망가지기 전까지는 알 수 없었죠.
저는 2024년에 Python WAF 우회 플레이북을 문서화했습니다. 그것은 해결할 가치가 있는 실제 문제였습니다. 코드는 작동했습니다. 하지만 작성하는 데 3일이 걸렸고, 매달 유지 관리하는 데 반나절이 소요되었습니다.
그것이 바로 **개발세(dev tax)**입니다. 스크래퍼를 유지 관리하는 매 시간은 그 데이터가 알려주었어야 할 것을 구축하는 데 쓰지 못하는 시간입니다. 정보 자체는 항상 공개적으로 존재했습니다. 비용은 데이터 자체가 아니라 접근 계층에 있었습니다.
바이브 코더(vibe-coders)에게 전체 스택은 하나의 벽이었습니다. 프록시 로테이션과 CAPTCHA 로직을 바이브 코딩만으로는 통과할 수 없습니다. 이러한 복잡성의 조합이 웹 데이터 추출을 특정 유형의 빌더를 위한 기술로 유지했고, 다른 사람들은 배제했습니다.
파이썬 스크래퍼 시대는 방금 '게임 오버(You Died)' 화면에 도달했습니다.
'바이브 스크래핑(Vibe Scraping)'이 실제로 의미하는 바
이 용어는 마케팅 팀에서 나온 것이 아닙니다.
시장이 기사들이 존재하기 전에 이 이름을 붙였습니다.
**바이브 코딩(Vibe coding)**은 빌더들에게 인프라를 작성하지 않고도 앱을 만들 수 있는 힘을 주었습니다. **바이브 스크래핑(Vibe scraping)**은 데이터 접근에 대해 똑같은 일을 합니다. 사용자가 추출하고 싶은 것을 설명하기만 하면 됩니다. AI가 호출을 오케스트레이션합니다. 사용자 워크플로우에서 인프라 계층이 사라집니다. 프록시 설정, HTML 셀렉터, CAPTCHA 로직: BrightData가 이 모든 것을 소유하고 있습니다.
예전 스택에는 필터가 내장되어 있었습니다. 즉, 전체 접근 계층을 작성하고 유지 관리할 수 있는 개발자들만 가능했습니다. 그 필터를 제거하자 웹 데이터를 경쟁적인 입력값으로 사용할 수 있는 사람들의 범위는 '개발자와 자금력이 풍부한 데이터 팀'에서 'Claude Code와 명확한 의도를 가진 누구나'로 바뀝니다. 완전히 다른 게임입니다.
설정 1줄이면 충분합니다. 그냥 요청하세요.
설치는 1분도 걸리지 않습니다.
brightdata add mcp
CLI 명령어 단 하나면 됩니다. BrightData CLI(2026년 6월 11일 업데이트)는 수동 설정이 전혀 필요 없이 Claude Code, Cursor, Codex에 직접 통합됩니다. Claude Code를 재시작하기만 하면 됩니다. 이제 무엇이든 스크래핑하도록 요청할 수 있습니다.
BrightData가 나머지를 처리합니다: 안티봇 회피(anti-bot evasion), CAPTCHA 해결, Amazon, LinkedIn, Instagram, TikTok, YouTube, Google Maps, Walmart, eBay, Etsy를 포함한 40개 이상의 플랫폼에 걸친 수백만 개의 IP 주소 프록시 로테이션, 그리고 구조화된 추출을 처리합니다.
사용자 측에서는: 평이한 영어로 원하는 것을 설명하기만 하면 됩니다. Claude가 올바른 도구를 선택하고, 호출을 실행하며, 구조화된 데이터를 반환합니다.
무료 티어는 월 5,000회의 요청을 제공합니다. 이는 이 글에 소개된 모든 유스케이스 (Use Case)를 최소 한 번씩 실행해 보고, 이것이 귀하의 워크플로 (Workflow)에 적합한지 결정하기에 충분한 양입니다. 여기에서 무료 티어로 시작하세요.
한 가지 언급할 가치가 있는 점: 저는 왜 CLI가 AI 에이전트에게 MCP보다 성능이 뛰어난지에 대해 글을 쓴 적이 있으며, 여전히 대부분의 경우 그 주장이 유효하다고 생각합니다. BrightData는 1가지 진정한 예외입니다. 여기서의 MCP (Model Context Protocol)는 단순한 편의용 래퍼 (Wrapper)가 아닙니다. 이는 Claude에게 40개 이상의 추출 프리셋 (Extraction Presets)과 CLI 방식으로 재현하려면 몇 주가 걸릴 실시간 CAPTCHA 처리 기능에 대한 구조화된 접근 권한을 제공합니다. 이 추상화 (Abstraction)는 그 가치를 충분히 증명합니다.
내가 만든 6가지 것들. 1가지 패턴.
바이브 스크래퍼 플레이북 (The Vibe Scraper Playbook): 6가지 웹 인텔리전스 유스케이스 (Use Cases)
이 6가지 유스케이스는 단순한 메뉴판이 아닙니다. 이들은 하나의 맥락으로 연결되어 있습니다. 각각은 과거에 대기업들이 팀을 고용하여 만들어내던 유형의 인텔리전스 (Intelligence)를 나타내며, 이제는 1인 개발자가 오후 시간 동안 접근할 수 있게 되었습니다.
경쟁사 콘텐츠 인텔리전스. 제 경쟁사들은 LinkedIn, YouTube, Twitter에 게시물을 올립니다. 그들의 게시 주기 (Posting Cadence)는 무엇이 공감을 얻고 있는지를 알려줍니다. 그들의 영상 스크립트 (Video Transcripts)는 그들의 메시징 (Messaging)을 알려줍니다. 저는 Claude Code가 이 모든 것을 매일 스크래핑하고, 새로운 내용을 요약하여, Slack에 요약본을 전달하도록 설정해 두었습니다. (회계팀의 Karen은 왜 제가 항상 주간 전략 회의 전에 경쟁사가 무엇을 하고 있는지 알고 있는 것 같냐고 물었습니다. 저는 그냥 주의를 기울이는 것뿐이라고 답했습니다. 하지만 그것이 전부는 아니었습니다.)
AI Operations의 Kevin Badi는 이와 유사한 설정을 문서화했습니다: Twitter, TikTok, Instagram, YouTube, LinkedIn을 모니터링하고, 비디오를 전사(transcribe)하며, 요약하여 이메일이나 Slack으로 전달하는 방식입니다. 그는 "규모가 작은 AI 에이전시들이 이제 대기업들과 경쟁하고 그들을 능가할 수 있게 되었다"라고 언급했습니다. 계산은 정확히 맞아떨어집니다.
CRM 리드 인리치먼트 (Lead Enrichment). 잠재 고객의 이름, 회사, 직함이 담긴 CSV 파일이 입력됩니다. Claude Code는 이메일, 전화번호, LinkedIn 프로필, 그리고 최근 활동 신호들을 자동으로, 대규모로 추가합니다. 과거에는 전담 데이터 팀이 필요했던 아웃바운드(Outbound) 작업이 이제는 단 한 번의 Claude 세션으로 실행됩니다.
가격 추적 (Price tracking). BrightData는 Amazon, Walmart, eBay, Etsy를 위한 구조화된 추출기(structured extractors)를 보유하고 있습니다. 저는 모니터링하고 싶은 제품과 알림 조건을 설명하기만 하면 됩니다. 그러면 Claude가 추출 설정을 완료합니다. 경쟁사가 제가 관심을 두는 카테고리의 가격을 조정하면, 제품 페이지를 수동으로 단 하나도 열어보지 않고도 당일이 끝나기 전에 그 사실을 알 수 있습니다.
(스크래핑과 무관한 짧은 여담: 이번 주에 저는 제 수영장 펌프 제어 패널에서 스크래핑 가능한 데이터가 생성되는지 확인하는 데 15분을 썼습니다. 결과는 아니었습니다. 로컬 관리 페이지는 인증을 요구하고, API는 없으며, 제조사는 누군가가 펌프 원격 측정(telemetry) 데이터를 Claude에 입력하고 싶어 할 것이라고는 상상조차 못 했습니다. 그래도 확인은 해봤습니다. 무언가를 할 수 있는 도구를 갖게 되면 일어나는 현상입니다. 비즈니스 케이스가 없는 것들을 포함하여 모든 것에 즉시 적용해 보려고 하게 됩니다.)
LLM 브랜드 모니터링 (LLM brand monitoring). 누군가 당신의 제품 카테고리에 대해 물었을 때 ChatGPT는 무엇을 추천할까요? 당신의 타겟 고객이 경쟁사를 검색할 때 Perplexity는 무엇을 노출할까요? BrightData는 이러한 출력값들을 실시간으로 추출할 수 있습니다. 이 분야의 전문 용어는 **생성형 엔진 최적화 (Generative Engine Optimization, GEO)**라고 불리며, 등장한 지 약 18개월 정도 되었습니다. 아직 이에 대한 확실한 모니터링 도구는 아무도 가지고 있지 않습니다.
솔직히 말씀드리면, 주요 LLM들이 생성된 응답에서 브랜드를 노출하는 방식을 바꾸게 되면 이 상황이 어떻게 진화할지 저도 완전히 확신할 수는 없습니다. 면밀히 지켜볼 가치는 있지만, 로드맵 전체를 여기에 걸기에는 아직 이릅니다.
채용 신호 분석 (Hiring signal analysis). 채용 공고는 공개된 웹상에서 얻을 수 있는 가장 훌륭한 무료 전략 정보입니다. 경쟁사가 영업 부사장 (VP Sales) 직무를 채용한다는 것은 방금 투자를 유치했다는 뜻입니다. 데이터 엔지니어링 직무를 10개나 올린 공고는 AI 인프라로 강력하게 피벗 (Pivot)하고 있다는 신호입니다. 고객 성공 (Customer Success) 직무를 모두 종료하는 곳은 고객 지원을 자동화하고 있거나, 혹은 힘든 분기를 앞두고 있는 것입니다.
BrightData는 구조화된 채용 공고 데이터를 지속적으로 추출합니다. Claude는 이 신호들을 읽어냅니다. 경쟁 정보 (Competitive intelligence) 팀이 수집하는 데 몇 주가 걸릴 작업을, 이 설정은 단 하룻밤 만에 찾아냅니다.
리뷰 마이닝 (Review mining). 내 시장의 모든 경쟁사는 수백 개의 Amazon 리뷰, Trustpilot 항목, Google Maps 평점을 보유하고 있습니다. 그 리뷰들 속에는 고객이 무엇에 좌절하는지, 무엇이 달라지기를 바라는지, 무엇 때문에 브랜드를 전환했는지를 설명할 때 사용하는 정확한 언어가 담겨 있습니다. 그 언어는 나의 포지셔닝 (Positioning), 랜딩 페이지 카피, 온보딩 스크립트에 포함되어야 합니다. Claude는 타겟에 대한 모든 리뷰를 추출하고, 반복되는 불만 사항을 테마별로 클러스터링 (Clustering)하여 포지셔닝 브리프 (Positioning brief)를 생성합니다. 마케팅 팀이 3주 동안 할 일을 여기서는 20분 만에 끝냅니다.
패턴은 항상 동일합니다. 정보는 이미 공개되어 있었습니다. 병목 현상은 언제나 접근성 (Access) 문제였습니다.
아직 할 수 없는 것 (What It Can't Do (Yet))
공개 데이터만 가능합니다. BrightData는 제품 페이지, 소셜 프로필, 채용 목록, 리뷰, 가격 데이터 등 공개된 웹에 대한 접근 권한을 제공합니다. 로그인이 필요한 뒤편의 데이터는 범위에서 제외됩니다. 인증된 세션이나 비공개 API (Private API)에서 데이터가 필요하다면 이 방식은 도움이 되지 않습니다.
무료 티어는 예상보다 빨리 소진됩니다. 월 5,000회의 요청은 넉넉해 보이지만, 5개의 플랫폼에서 하루 3번씩, 10개의 프로필을 대상으로 경쟁사 모니터링을 수행하다 보면 금방 한계에 도달합니다. 계산이 빠르게 빡빡해집니다. 유료 플랜은 볼륨에 따라 확장되며 제공하는 가치 대비 가격은 합리적이지만, 이 시스템에 의존하는 워크플로우 (Workflow)를 구축하기 전에 반드시 비용 모델에 반영하십시오.
프롬프트 품질의 한계는 실재합니다. 모호한 요청은 모호한 결과물을 낳습니다. 이는 LLM 버전의 undefined is not a function과 같습니다. "내 경쟁사의 게시물을 스크래핑해줘"라는 요청은 "이 LinkedIn 기업 페이지에서 최근 30개의 게시물을 추출하고, 게시물 전체 텍스트, 참여 수(engagement count), 게시 날짜를 포함하여 구조화된 JSON 형식으로 반환해줘"라는 요청보다 훨씬 나쁜 결과를 생성합니다. 인프라 문제는 사라졌지만, 사고(thinking)의 문제는 여전히 남아 있습니다.
그들은 이 데이터를 위해 8만 달러를 지불했습니다
이러한 방식의 웹 접속을 위한 엔터프라이즈 프록시 (Enterprise proxy) 계약은 데이터 양과 플랫폼 커버리지에 따라 연간 10,000달러에서 80,000달러에 달했습니다. 이는 데이터를 사용하기 위한 팀을 구성하고, 파이프라인 (pipelines)을 구축하며, 사이트가 변경될 때 추출 레이어 (extraction layer)를 유지 관리하는 비용을 제외한 금액입니다.
해자 (Moat)는 독점적인 정보가 아니었습니다. 공개된 웹은 언제나 공개되어 있었습니다. 해자는 접근 비용과 복잡성이었으며, 이는 막대한 예산을 가진 기업들만이 본격적인 데이터 운영을 할 수 있도록 제한했습니다.
그 해자의 주인이 방금 바뀌었습니다.
변한 것은 해당 페이지에 놓인 데이터가 아닙니다. Amazon의 모든 가격, LinkedIn의 모든 채용 공고, Trustpilot의 모든 리뷰는 어제도 접근 가능했고 오늘도 접근 가능합니다. 변한 것은 팀 없이, 6자릿수 계약 없이, 파이썬 (Python) 코드를 단 한 줄도 쓰지 않고도, 누가 대규모로(at scale) 이를 읽을 수 있게 되었는가 하는 점입니다.
저는 이것이 작동하는 데모에서 실제로 출시 가능한 제품으로 넘어가는 1인 빌더 (solo builder)에게 무엇을 의미하는지 계속 생각하게 됩니다. 이미 데이터 팀을 보유한 20명의 엔지니어를 둔 회사가 아니라, 이제 막 제품을 작동시키는 데 성공하여 가격 전략이나 포지셔닝 (positioning)에 베팅하기 전 실제 시장 인텔리전스 (market intelligence)가 필요한 사람 말입니다. 그들은 이제 스타트업들이 그러한 결정을 내리기 위해 사용했던 것과 동일한 경쟁 데이터를 사용할 수 있게 되었습니다. 정보의 운동장이 실시간으로 평평해졌습니다. 🎯
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기