원래 AIdeazz에 게시되었으며, 여기에는 정식 링크와 함께 교차 게시되었습니다. 1,000회 요청당 1.50달러는 저렴하게 들리지만, 그 요청의 73%가 이미 보유하고 있는 데이터를 반환한다는 사실을 깨닫기 전까지는 그렇습니다. HubSpot 마이그레이션을 통해 어떤 스크래핑(Scraping)이 실제로 중요한지 배우기 전까지, 우리는 47,000개의 B2B 리드(Leads)를 보강하는 데 3,200달러를 쏟아부었습니다.

거의 성공할 뻔했던 데이터 보강 파이프라인 (Enrichment pipeline)
우리의 Oracle Cloud 에이전트들은 Apollo 및 ZoomInfo 내보내기 파일에서 매일 8,000개의 리드를 가져오고 있었습니다. 표준적인 B2B 데이터 보강 항목은 기업 규모, 기술 스택(Tech stack), 최근 자금 조달 현황 등이었습니다. 이론은 간단했습니다. 영업 활동을 시작하기 전에 실제 웹사이트를 스크래핑하여 최신 신호(Signals)를 포착하는 것이었습니다. BrightData Web Unlocker가 프록시 로테이션(Proxy rotation)과 자바스크립트 렌더링(JavaScript rendering)을 처리했습니다. 우리의 추출 로직(Extraction logic)은 다음 항목을 찾았습니다:

채용 공고 (채용 중 = 예산 있음)
푸터(Footer)에 언급된 기술 스택
최근 블로그 게시물 (참여 신호)
가격 페이지의 변경 사항

첫 주 결과: 리드의 34%가 "새로운" 데이터로 보강되었습니다. 경영진은 이를 매우 좋아했습니다. 하지만 저는 우리가 실제로 무엇을 캡처했는지 확인해 보았습니다.

스크래핑된 데이터의 73%가 왜 기존 필드와 중복되었는가

우리가 스크래핑한 내용

brightdata_response = {
" company_size " : " 51-200 " , # 이미 Apollo에 있음
" industry " : " SaaS " , # 이미 ZoomInfo에 있음
" tech_stack " : [ " React " , " AWS " ], # LinkedIn Sales Nav에 이미 있었음
" last_blog " : " 2024-01-15 " # 유일하게 새로운 필드
}

Web Unlocker는 완벽하게 작동했습니다. 우리의 추출 로직도 완벽하게 작동했습니다. 우리는 단지 다른 제공업체로부터 구매한 데이터의 비싼 중복본을 스크래핑했을 뿐입니다.

47,000개 리드에 대한 실제 수치:

34,310개 성공적으로 스크래핑됨
25,046개는 기존 기록과 일치하는 데이터 반환 (±10% 오차 범위)
6,891개는 진정으로 새로운 신호를 제공함
2,373개는 실행 가능한 인텔리전스(Actionable intelligence)를 제공함

1,000회당 1.50달러의 CPM 기준으로, 우리는 2,373개의 리드에 유용한 데이터를 보강하는 데 51.47달러를 지불했습니다. 이는 실행 가능한 리드당 0.022달러로, 34,310개의 응답을 처리하는 컴퓨팅 비용(Compute cost)을 고려하기 전까지는 나쁘지 않은 수치였습니다.

신뢰도 점수를 떨어뜨린 거짓 양성 (False positives)
가장 나쁜 점은 중복 데이터가 아니었습니다. 통찰력(Insights)처럼 보이는 추출 오류(Extraction errors)였습니다.

우리는 채용 페이지 스크래핑 (Scraping)을 기반으로 1,247개의 기업을 "엔지니어를 활발히 채용 중"이라고 표시했습니다. 수동 점검 (Manual spot checks) 결과는 다음과 같았습니다: 431개는 채용 대행사(채용 중이 아니라 광고 중), 298개는 오래된 채용 공고(6개월 이상 경과), 193개는 파싱 오류(마케팅 직무가 엔지니어링으로 태깅됨), 325개만이 실제로 엔지니어를 채용 중이었습니다. 우리의 가장 가치 있는 시그널 (Signal)에 대해 26%의 정확도를 기록한 것입니다. 우리 영업 팀은 데이터 보강 (Enrichment) 데이터를 완전히 무시하기 시작했습니다.

웹사이트 아키텍처 (Architecture)에 따른 추출 실패
BrightData Web Unlocker는 안티 봇 (Anti-bot) 조치를 처리하지만, 현대적인 B2B 사이트들은 예측 가능한 방식으로 우리의 파서 (Parsers)를 망가뜨렸습니다:

React/Next.js 사이트 (대상 중 41%): 클라이언트 사이드 렌더링 (Client-side rendering) 방식은 3초의 대기 시간을 추가하지 않으면 빈 div를 스크래핑하게 만들었습니다. 이러한 대기 시간은 우리를 더 높은 가격 티어로 밀어 올렸습니다.
Cloudflare Enterprise (대상 중 18%): Web Unlocker를 사용하더라도 도메인당 50~100페이지 이후에는 속도 제한 (Rate limits)에 걸렸습니다. 지수 백오프 (Exponential backoff)를 구현해야 했고, 이는 처리량 (Throughput)을 저하시켰습니다.
동적 가격 페이지 (SaaS의 67%): "엔터프라이즈 가격은 문의해 주세요" — 이는 거래 규모 예측에 무용지물이었습니다.
다국어 사이트 (대상 중 23%): 리다이렉트 (Redirect) 로직을 파악하기 전까지 영국 기업 사이트의 독일어 버전을 1,100번이나 스크래핑했습니다.

어떤 시그널이 실제로 미팅으로 전환되었는가
HubSpot 도입 이후, 나는 데이터 보강 데이터와 실제 예약된 미팅을 상관 분석 (Correlated)했습니다. 스크래핑된 시그널 중 통계적 유의성 (Statistical significance)을 보인 것은 단 세 가지뿐이었습니다:

블로그 포스트 빈도 변화 (미팅 확률 2.3배 증가): 지난 30일 동안 포스팅 빈도를 높인 기업들은 무언가를 활발히 마케팅하고 있었습니다.
새로운 팀 페이지 추가 (미팅 확률 1.9배 증가): 새로운 인물 사진은 대개 새로운 리더십이나 확장을 의미했습니다.
문서 업데이트 (미팅 확률 1.7배 증가): 활발한 문서 업데이트는 활발한 제품 개발과 예산 할당을 의미했습니다.
그 외의 모든 것 — 기술 스택 (Tech stack), 기업 규모, 산업 키워드 — 은 가공되지 않은 Apollo 데이터보다 나은 성과를 내지 못했습니다.

실제로 의미 있는 1.50달러 CPM 계산법

BrightData Web Unlocker가 B2B 데이터 보강 (Enrichment)에 효과적인 경우는 다음과 같습니다:

가치가 있는 경우:

사이트 전체가 아닌 특정 페이지 (블로그, 팀 소개, 문서) 스크래핑 (Scraping)
경쟁사의 가격 변동 모니터링
컨퍼런스 연사 목록 추출
고객사 로고를 통한 통합 파트너 (Integration partners) 탐색

돈 낭비인 경우:

일반적인 기업 정보 스크래핑
기술 스택 (Tech stack) 탐지 (BuiltWith API 사용 권장)
직원 수 추정
산업 분류

우리의 개선된 파이프라인 (Pipeline)은 전체 사이트 크롤링 (Crawl)을 시도하는 대신 리드 (Lead)당 단 3개의 페이지만 스크래핑합니다. 실행 가능한 인텔리전스 (Actionable intelligence)는 일정하게 유지하면서, 배치 (Batch)당 비용은 51.47달러에서 8.20달러로 감소했습니다.

낭비 없는 현재 아키텍처 (Architecture)

학습 후 Oracle Cloud 설정:

Groq가 Apollo 내보내기 데이터를 처리하여 1,000만 달러 이상의 펀딩을 받은 기업 식별
Claude가 블로그/팀/문서 페이지만을 위한 개인화된 스크래퍼 (Scraper) 작성
BrightData Web Unlocker가 리드당 해당 3개의 URL을 가져옴
로컬 Llama 3.1이 시간적 변화 (새 게시물, 새로운 인물, 새로운 기능)를 추출
신뢰도 (Confidence)가 0.8보다 큰 경우에만 HubSpot으로 전송

현재 일일 지표:

1,200개 리드 처리 (8,000개에서 감소)
89%가 최소 하나 이상의 의미 있는 신호 (Signal) 보유
Web Unlocker 비용 1.80달러
미팅 예약률 3.4% (0.9%에서 상승)

제약 조건이 더 나은 사고를 강제했습니다. 모든 것을 보강하는 대신, 먼저 자격을 검증(Qualify)하고, 특정 신호만을 스크래핑하며, 전환되는 것에 대해서만 비용을 지불합니다.

Oracle Cloud 빌더를 위한 실전 교훈

BrightData Web Unlocker는 견고한 서비스입니다. 우리의 경험상 99.4%의 업타임 (Uptime)을 기록했으며, 양질의 프록시 (Proxy) 다양성을 갖추고 있고, JavaScript를 적절히 처리합니다. 하지만 이것은 망치이며, B2B 데이터 보강에는 메스가 필요합니다.

컴퓨팅 자원 제약이 있는 Oracle Cloud에서 서비스를 배포 중이라면:

공격적으로 캐싱 (Cache) 하세요. 동일한 기업이 서로 다른 리드 목록에 걸쳐 50번 스크래핑될 수 있습니다.
API의 도메인별 설정을 사용하세요. 그들의 이커머스 (E-commerce) 설정은 B2B 사이트에서 제대로 작동하지 않습니다.
엄격한 타임아웃 (Timeout)을 설정하세요. React 하이드레이션 (Hydration)을 기다리며 멈춰 있는 요청 하나가 100번의 빠른 페치 (Fetch)보다 더 많은 비용을 발생시킵니다.
모든 것을 로그 (Log)로 남기세요. 어떤 신호가 실제로 중요한지 찾아내려면 3개월 치의 데이터가 필요할 것입니다.

진정한 통찰: 데이터 보강 (Enrichment) 전략은 영업 방식 (Sales motion)과 일치해야 합니다. 대량의 아웃바운드 (Outbound)에는 타겟팅된 ABM (Account-Based Marketing)과는 다른 데이터가 필요합니다. 우리는 제대로 사용하지도 않던 데이터를 아주 조금 개선하기 위해 3,200달러를 지출한 후에야 이 사실을 깨달았습니다. 모든 것을 스크래핑 (Scraping)하는 것을 멈추세요. 전환 (Convert)을 일으키는 것부터 스크래핑을 시작하세요.

자주 묻는 질문 (FAQ)

Q: 커스텀 스크래퍼 (Custom scraper)를 구축하는 대신 Clay나 Clearbit을 사용하지 않는 이유는 무엇인가요?
A: Clay는 최소 월 349달러의 비용이 들며, 데이터 보강 크레딧 (Enrichment credits)에 대해서도 별도로 비용을 청구합니다. 우리의 47,000개 리드 (Lead) 배치 작업은 Clay를 사용했다면 4,700달러 이상의 비용이 들었을 것입니다. 커스텀 방식은 우리가 추출할 신호 (Signals)를 정확히 제어할 수 있게 해주며, 규모가 커질수록 비용이 80% 더 저렴합니다.

Q: BrightData Web Unlocker조차 차단하는 사이트들은 어떻게 처리하나요?
A: 처리하지 않습니다. 만약 어떤 회사가 안티 스크래핑 (Anti-scraping)에 그토록 막대한 투자를 하고 있다면, 그들은 어차피 자동화된 아웃바운드 대상에 적합하지 않습니다. 더 쉬운 타겟으로 넘어가세요. 그런 타겟은 수백만 개가 있습니다.

Q: 블로그 게시 빈도 (Blog frequency) 탐지에서 오탐률 (False positive rate)은 구체적으로 어느 정도인가요?
A: 11%의 오탐률을 보이며, 대부분은 오래된 콘텐츠를 새로운 날짜로 대량 가져오기 (Bulk-import)하는 사이트들에서 발생합니다. 우리는 여러 포스트가 동일한 타임스탬프 (Timestamp)를 가지고 있는지, 또는 발행 날짜가 모두 같은 요일인지 확인하여 필터링합니다.

Q: 왜 이 워크로드 (Workload)에 AWS Lambda 대신 Oracle Cloud를 사용하나요?
A: Oracle은 상시 무료 계층 (Always-free tier)에서 4개의 OCPU ARM 인스턴스를 제공합니다. 이는 우리의 Telegram 알림 에이전트와 크론 (Cron) 기반 스크래퍼에 완벽합니다. Lambda를 동일한 처리량 (Throughput)으로 사용한다면 월 200달러 이상의 비용이 들 것입니다.

Q: 보강된 리드당 0.022달러라는 비용이 수동 SDR 리서치와 비교했을 때 실제로 저렴한가요?
A: 시간당 20달러를 받는 SDR이 리드당 2분을 소비한다면 리드당 0.67달러의 비용이 듭니다. 우리는 30배 더 저렴하며, 그들이 놓칠 수 있는 신호들을 찾아냅니다. 핵심은 사람이 후속 조치 (Follow-up)를 할 가치가 있는 고의도 (High-intent) 신호만을 필터링하는 것입니다.

— Elena Revicheva · AIdeazz · Portfolio

BrightData Web Unlocker 사용으로 B2B 데이터 보강 예산의 40%를 소모하고 12%의 성능 향상을 얻은 사례

요약

핵심 포인트

우리가 스크래핑한 내용

댓글