
Hermes와 Openclaw로 웹 데이터를 무료로 수집하고 싶고, 안티 크롤링(Anti-scraping)을 피하고 싶다면 이 10개 저장소만
요약
안티 크롤링을 우회하고 웹 데이터를 효율적으로 수집할 수 있는 10가지 오픈 소스 저장소를 소개합니다. Firecrawl, Crawl4AI, browser-use 등 AI 활용 및 자동화에 최적화된 도구들을 다룹니다.
핵심 포인트
- AI 학습용 깨끗한 데이터 추출을 위한 Firecrawl 및 Crawl4AI 소개
- browser-use를 활용한 AI의 실제 브라우저 제어 및 자동화 방법
- 안티 크롤링 우회를 위한 프록시 및 지문 위장 도구 활용
- PDF 및 다양한 문서를 텍스트로 변환하는 Microsoft의 MarkItDown
Hermes와 Openclaw로 웹 데이터를 무료로 수집하고 싶고, 안티 크롤링(Anti-scraping)을 피하고 싶다면 이 10개 저장소만 저장해두면 충분합니다!
1️⃣ Firecrawl: URL을 넣으면 사이트 전체를 스스로 크롤링하여 AI가 즉시 사용할 수 있는 깨끗한 데이터를 출력합니다. JS 렌더링(JS rendering) 페이지도 견뎌낼 수 있으며, 14만 ★를 기록하며 GitHub Top 100에 진입했습니다.
🔗 https://t.co/MfEEWXuwXI
2️⃣ Crawl4AI: 웹사이트를 LLM(대규모 언어 모델)이 직접 읽을 수 있는 텍text로 변환합니다. API 키가 필요 없으며 비용도 들지 않습니다. 월 16달러의 비용에 화가 난 한 프로그래머가 며칠 만에 만들어낸 프로젝트로, 7만 ★를 기록 중입니다.
🔗 https://t.co/jwgehatcZt
3️⃣ browser-use: AI가 실제 사람처럼 마우스를 클릭하고, 로그인하고, 양식을 채우도록 만듭니다. ETH Zurich 학생 팀이 개발했으며, 10만 ★를 기록했습니다.
🔗 https://t.co/mtIhoBOmT8
4️⃣ Crawlee: 프록시(Proxy) 자동 교체, 재시도, 지문 위장(Fingerprint spoofing), 큐(Queue) 관리 등 제한을 피하기 위한 모든 도구 세트를 갖추고 있습니다.
🔗 https://t.co/4HOhBNJpnS
5️⃣ Scrapy: 10년 넘게 활동해 온 베테랑으로, 수백만 개의 페이지도 안정적으로 처리하며 영구적으로 무료입니다.
🔗 https://t.co/TAaBKllwdX
6️⃣ MarkItDown: Microsoft에서 출시하였으며, PDF, Office, HTML, 이미지를 대량으로 텍스트로 변환해 주는 오픈 소스 무료 도구입니다.
🔗 https://t.co/J5JydFUnB7
7️⃣ Scrapling: 웹사이트 구조가 변경되어도 스스로 적응하며 차단을 지속적으로 피할 수 있습니다. 무료 버전이 유료 버전을 압도할 정도입니다.
🔗 https://t.co/0ny8I82v5q
8️⃣ scrcpy: 컴퓨터로 안드로이드 스마트폰을 원격 제어합니다. 웹 페이지가 없고 앱만 있는 경우를 해결하기에 최적이며, 14만 ★를 기록했습니다.
🔗 https://t.co/qaZdQ5NXYZ
9️⃣ AutoScraper: 샘플을 하나 제공하면 스스로 규칙을 학습하여 대량으로 수집합니다. 선택자(Selector)를 작성할 필요 없이 몇 줄의 Python 코드로 실행 가능합니다.
🔗 https://t.co/0x7buvgOtp
🔟 curl-impersonate: 요청을 실제 Chrome 지문(Fingerprint)으로 위장하여 마치 실제 사람이 클릭하는 것처럼 보이게 합니다. 안티 크롤링(Anti-scraping)을 우회하기에 매우 쉽습니다.
🔗 https://t.co/xQAxYBVrze
도구는 모두 준비되었습니다. 얼마나 수집할지는 당신에게 달려 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @nftcps (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기