
웹 스크래핑(Web Scraping)의 시대가 끝났다
요약
HTML 파싱 대신 웹페이지 스크린샷을 활용해 데이터를 추출하는 PixelRAG 기술을 소개합니다. 시각 모델을 통해 텍s트뿐만 아니라 표, 차트 등 레이아웃 정보를 정확하게 인덱싱하여 기존 RAG의 한계를 극복합니다.
핵심 포인트
- HTML 파싱의 데이터 누락 문제를 시각적 인덱싱으로 해결
- 텍스트 전용 RAG 대비 성능을 18.1% 향상
- Claude에 시각적 능력을 부여하는 플러그인 구현 가능
- 이미지 타일 렌더링 및 시각 모델 임베딩 파이프라인 활용
- Apache-2.0 라이선스의 오픈 소스로 공개
웹 스크래핑(Web Scraping)이 방금 무너졌습니다.
연구원들이 웹사이트를 전혀 스크래핑하지 않는 시스템을 구축했습니다.
그것은 스크린샷을 찍습니다.
그게 전부입니다.
HTML을 파싱(Parsing)하고 아무것도 망가지지 않기를 바라는 대신, PixelRAG는 페이지의 스크린샷을 찍고 시각 모델(Vision Model)이 인간처럼 읽을 수 있게 합니다.
이것이 놀라운 이유:
• HTML 파서(Parser)는 페이지의 40% 이상을 조용히 놓칠 수 있습니다.
• 표, 차트, 레이아웃은 종종 쓰레기 데이터로 평탄화(Flattened)됩니다.
• 파서만 바꿔도 정확도가 약 10포인트 정도 변동될 수 있습니다.
PixelRAG는 텍스트가 아닌 픽셀(Pixel)을 인덱싱합니다.
연구팀은 3,000만 개 이상의 위키피디아(Wikipedia) 스크린샷으로 시각적 인덱스를 생성했으며, 텍스트 전용 질문에서도 가장 강력한 텍스트-RAG(Text-RAG) 베이스라인을 18.1% 차이로 앞질렀습니다.
더 놀라운 점은:
그들은 Claude에게 실제 눈을 부여하는 Claude 플러그인을 구축했습니다.
웹페이지, PDF, arXiv 논문 또는 로컬 사이트를 가리키면, DOM을 스크래핑하는 대신 페이지가 실제로 어떻게 보이는지를 읽습니다.
MCP 서버도 필요 없습니다.
백엔드(Backend)도 필요 없습니다.
단 하나의 설정 스크립트면 충분합니다.
파이프라인(Pipeline):
→ 페이지를 이미지 타일(Image Tiles)로 렌더링(Render)
→ 스크린샷에 최적화된 시각 모델(Vision Model)을 사용하여 임베딩(Embed)
→ FAISS에 저장
→ 스크린샷을 검색하고 LLM이 이를 읽도록 함
인덱스는 단순한 픽셀이므로, 모든 것을 다시 구축할 필요 없이 더 나은 판독 모델로 교체하는 것만으로도 성능을 향상시킬 수 있습니다.
Apache-2.0 라이선스 하에 오픈 소스로 공개되었습니다.
Repo: https://t.co/x9KT54UpMV
[IMG:1]
AI 자동 생성 콘텐츠
본 콘텐츠는 X @RodmanAi (AI 생산성)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기