
당신의 Amazon 리뷰 스크래퍼가 3주 안에 실패할 이유와 해결 방법
요약
Amazon 리뷰 데이터를 수집할 때 발생하는 기술적 장애물과 해결 방안을 다룹니다. 직접 구축한 스크래퍼가 로그인 벽, TLS 핑거프린팅, 동적 셀렉터로 인해 실패하는 이유를 설명하고, 안정적인 데이터 확보를 위한 대안을 제시합니다.
핵심 포인트
- Amazon의 로그인 벽과 TLS 핑거프린팅 기술로 인한 차단 위험
- 기본 Python requests 대신 curl_cffi와 같은 HTTP/2 클라이언트 필요성
- 연구용 UCSD 데이터셋과 상업용 관리형 API의 차이점 비교
- 프로덕션 환경에서는 주거용 프록시와 관리형 API 사용 권장
TL;DR
만약 ML 연구를 위해 **Amazon Customer Reviews Dataset (571M reviews)**를 찾고 있다면, UCSD의 McAuley Lab이 해결책을 제공합니다. 하지만 상업용 앱이나 AI Agent를 위해 실시간 리뷰 데이터가 필요하다면, requests와 BeautifulSoup를 사용하여 직접 스크래퍼를 구축하는 것은 좋지 않은 생각입니다. /product-reviews/ 경로의 Amazon 로그인 벽(login wall), TLS 핑거프린팅(TLS fingerprinting), 그리고 동적 셀렉터(dynamic selectors)가 몇 주 안에 당신의 코드를 망가뜨릴 것입니다. 여기 당신의 선택지들에 대한 비교와 이를 안정적으로 실행하기 위한 Python 코드가 있습니다.

현황: 정적 데이터셋 vs 실시간 스크래핑
1. UCSD 학술 데이터셋 (571.54M Reviews)
연구자들에게 표준과도 같은 것은 UC San Diego의 McAuley Lab에서 제공하는 Amazon Reviews 2023 데이터셋입니다.
- 장점: 5억 7,100만 개의 리뷰, 33개 카테고리, 깨끗한 사용자-아이템 그래프, Hugging Face를 통해 무료 제공.
- 단점: 오래됨 (2023년 9월에서 멈춤), 비상업적 라이선스 (CC BY-NC 4.0), 그리고 Amazon의 최신 Customer Says AI 요약 기능이 누락됨.
2. DIY Python 스크래퍼
직접 스크립트를 만드는 방식입니다. 학습용으로는 좋지만, 프로덕션(production) 환경에는 부적합합니다.
3. 관리형 리뷰 API (Managed Review APIs)
Pangolinfo, Oxylabs, 또는 Bright Data와 같이 프록시 로테이션(proxy rotation), TLS 핑거프린팅, CAPTCHA를 관리하여 깨끗한 JSON을 반환하는 서비스들입니다.
DIY 스크래퍼가 실패하는 이유
2024년 말, Amazon은 /product-reviews/ 경로를 로그인 벽(login wall) 뒤로 옮겼습니다. 로그인이 되어 있지 않으면 로그인 페이지로 리다이렉트됩니다.
또한, Amazon의 WAF(Web Application Firewall)는 당신의 TLS Client Hello 패킷을 검사합니다. Python의 기본 TLS 핸드셰이크(JA3 fingerprint)는 Chrome과 비교했을 때 쉽게 식별되어, 즉각적인 503 차단을 초래합니다. 이를 해결하려면 curl_cffi와 같은 HTTP/2 클라이언트를 사용해야 하며, 주거용 프록시(residential proxies, $3–$15/GB)를 구매해야 합니다.
다음은 몇 개의 주요 리뷰에는 작동하지만, 깊은 히스토리(deep histories)에서는 실패하는 기본적인 상세 페이지 스크래퍼입니다:
import requests
from bs4 import BeautifulSoup
import time
...
프로덕션 설정: 관리형 API 사용하기
TLS 우회(TLS bypass) 기술을 재구축하고 프록시(proxy) 비용을 지불하며 시간을 허비하는 대신, 상용 프로젝트들은 관리형 API (managed APIs)를 사용합니다.
import requests
class PangolReviewClient:
...
AI 에이전트 (AI Agent) 빌더의 경우, Pangolinfo Amazon Data MCP를 통해 Model Context Protocol (MCP)로 구조화된 리뷰 데이터를 노출하므로, 에이전트가 실시간 이커머스 리뷰를 직접 쿼리할 수 있습니다.
요약 (Summary)
- NLP 연구/오프라인 학습용: McAuley Lab의 정적 Amazon Reviews 2023 데이터셋을 사용하세요.
- 프로덕션/AI 에이전트 도구용: 로그인 장벽을 우회하고 구조화된 JSON을 얻기 위해 Pangolinfo Amazon Review API와 같은 관리형 API를 사용하세요.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기