
AI를 위한 웹 페이지 크롤링: 불필요한 정보를 제거하고 깨끗한 Markdown/JSON으로 변환하는 webclaw 오픈소스 도구
요약
webclaw는 웹 페이지에서 광고나 스크립트 같은 불필요한 정보를 제거하고 깨끗한 Markdown 또는 JSON으로 변환해주는 오픈소스 도구입니다. LLM과 RAG 프로세스에 최적화된 본문 추출 기능을 제공하며, MCP를 통해 Claude Code 및 주요 에이전트 도구와 연동할 수 있습니다.
핵심 포인트
- 웹 페이지를 LLM 친화적인 Markdown/JSON 형식으로 변환
- RAG(검색 증강 생성) 프로세스에 즉시 활용 가능한 데이터 제공
- 문서 사이트 전체 일괄 크롤링 및 페이지 변화 비교 기능 지원
- MCP 지원으로 Claude Code, Codex 등 에이전트 도구와 연동 가능
AI에게 웹 페이지 콘텐츠를 크롤링하게 하면, 내비게이션 바, 광고, 스크립트 코드와 같은 무효한 정보들이 한 무더기로 긁혀 오는 경우가 많습니다.
최근 webclaw라는 오픈소스 (Open Source) 도구를 발견했는데, 웹 페이지를 깨끗한 Markdown 또는 JSON으로 직접 변환할 수 있습니다.
웹 페이지 링크만 입력하면 불필요한 정보를 자동으로 제거하고, 우리가 실제로 필요로 하는 핵심 웹 페이지 본문만 남겨줍니다.
또한 대규모 언어 모델 (LLM)에 최적화된 간결한 형식을 출력할 수 있어, 바로 RAG (Retrieval-Augmented Generation) 프로세스에 활용할 수 있습니다.
GitHub: https://t.co/yrwFbW2wa6
단일 페이지 추출 외에도 문서 사이트 전체를 일괄 크롤링하거나, 페이지의 전후 변화를 비교하고, 브랜드 색상 및 Logo 등의 정보를 추출할 수도 있습니다.
MCP (Model Context Protocol) 서비스를 지원하여 Claude Code, Codex 등 주요 Agent 도구에 연결하여 사용할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @github_daily (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기