본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 24. 01:51

웹 스크래핑(Web Scraping)의 강력한 도전자가 등장했습니다: Berkeley, Princeton, EPFL, Databricks의 협업

요약

Berkeley, Princeton, EPFL, Databricks 연구진이 협업하여 개발한 PixelRAG를 소개합니다. HTML 파싱 대신 비전 모델이 스크린샷의 픽셀을 직접 읽는 방식으로, 기존 텍스트 기반 RAG보다 높은 정확도를 보여줍니다.

핵심 포인트

  • HTML 파싱 없이 비전 모델로 픽셀에서 직접 데이터 추출
  • 표, 차트, 레이아웃 등 시각적 구조를 그대로 보존
  • 6개 벤치마크에서 기존 텍스트 기반 RAG 대비 18.1% 높은 정확도 기록
  • Apache 2.0 라이선스의 100% 오픈 소스 프로젝트
  • 성능 극대화를 위해 강력한 Vision Language Model(VLM) 필요

웹 스크래핑(Web Scraping)에 강력한 도전자가 등장했습니다. 이들은 Berkeley, Princeton, EPFL, 그리고 Databricks에서 왔습니다.

PixelRAG는 HTML 파싱(Parsing)을 완전히 건너뜁니다. 이 방식은 페이지를 스크린샷으로 찍고, 비전 모델(Vision Model)이 픽셀에서 직접 답을 읽어냅니다. 즉, 파서(Parser)가 데이터를 평면화(Flatten)하는 방식이 아니라, 인간이 실제로 페이지를 보는 방식과 동일하게 작동합니다.

표(Table)는 표로 유지되고, 차트(Chart)는 차트로 유지됩니다. 레이아웃(Layout)도 그대로 보존됩니다.

3,000만 개의 스크린샷 타일(Screenshot tiles)을 포함하는 Wikipedia 인덱스를 포함하여 6개의 벤치마크(Benchmark) 전반에서 가장 강력한 텍스트 기반 RAG 베이스라인(Baseline)보다 18.1% 더 높은 정확도를 기록했습니다.

100% 오픈 소스(Apache 2.0)입니다. Claude에게 눈을 달아주는 Claude Code 플러그인인 pixelbrowse와 함께 제공됩니다. 이 플러그인은 어떤 URL이든 스크린샷을 찍고, DOM을 스크래핑하는 대신 시각적으로 읽을 수 있게 해줍니다.

솔직한 주의사항: 실제로 승리하기 위해서는 강력한 비전 모델(Vision Model)이 필요합니다. 더 작은 VLM(Vision Language Model)들은 텍스트 검색(Text Retrieval)보다 12포인트 이상 뒤처집니다. 이 이점은 읽는 모델(Reader)의 성능에 따라 확장되며, 그 반대는 성립하지 않습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 X @cyrilxbt (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0