중국 자매체 데이터 수집의 신기! 샤오홍슈, 도우인, Bilibili 등 다중 플랫폼 크롤러!
요약
샤오홍슈, 도우인, Bilibili 등 중국 주요 플랫폼의 데이터를 체계적으로 수집할 수 있는 오픈소스 크롤러 MediaCrawler를 소개합니다. Playwright 기반의 자동화와 리스크 관리 기능을 통해 안정적인 데이터 수집 환경을 제공합니다.
핵심 포인트
- 샤오홍슈, 도우인, Bilibili 등 다중 플랫폼 지원
- Playwright 기반 자동화 및 로그인 상태 캐싱 지원
- CSV, JSON, MySQL 등 다양한 데이터 포맷 내보내기 가능
- WebUI 시각화 및 워드 클라우드 생성 기능 내장
- 54.4k Stars를 기록한 활발한 오픈소스 프로젝트
샤오홍슈(Xiaohongshu) 노트, 도우인(Douyin)/콰이쇼우(Kuaishou) 영상, Bilibili(B站) 콘텐츠, 웨이보(Weibo)/지후(Zhihu)/티에바(Tieba) 게시글 및 댓글을 체계적으로 수집하고 싶으신가요? 수동 복사는 너무 느리고, 상용 도구는 너무 비쌉니다.
MediaCrawler 프로젝트는 주요 자매체 플랫폼의 공개 데이터 수집을 극한까지 끌어올렸습니다:
• 커버 플랫폼: 샤오홍슈, 도우인, 콰이쇼우, Bilibili, 웨이보, 바이두 티에바, 지후
• 핵심 기능: 키워드 검색, 지정 게시글/영상 ID, 2차 댓글, 크리에이터 홈 크롤링
• 기술적 하이라이트: Playwright 브라우저 자동화 기반, JS 역공학(Reverse Engineering) 불필요, 로그인 상태 캐싱 + IP 프록시 풀 지원으로 리스크 관리(Risk Control) 대폭 감소
• 데이터 내보내기: CSV, JSON, JSONL, Excel, SQLite, MySQL
• 추가 혜택: 워드 클라우드(Word Cloud) 생성 내장 + WebUI 시각화 인터페이스 제공으로 설정 및 실행이 더욱 용이함
• CDP 모드: 로컬 Chrome에 직접 연결하여 로그인 상태와 확장 프로그램을 재사용, 더욱 안정적인 경험 제공
이 프로젝트는 현재 54.4k stars를 획득했으며, 커뮤니티가 활발하고 지속적으로 유지보수되고 있습니다. 저자는 중단점 재개 크롤링(Breakpoint Resumption) + AI Agent Skill을 지원하는 Pro 버전도 출시했지만, 오픈소스 버전만으로도 이미 매우 강력합니다.
콘텐츠 크리에이터, 데이터 분석가, AI 학습 데이터 수집가, 또는 성숙한 크롤러 아키텍처를 배우고 싶은 개발자에게 매우 실용적인 오픈소스 도구입니다.
GitHub: https://t.co/NyrL32Dfr7
AI 자동 생성 콘텐츠
본 콘텐츠는 X @gittrend0x (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기