AI Tips요약2026. 06. 22. 07:08

웹 스크래핑(Web Scraping)의 시대가 끝났다

요약

HTML 파싱 대신 웹페이지 스크린샷을 활용해 데이터를 추출하는 PixelRAG 기술을 소개합니다. 시각 모델을 통해 텍s트뿐만 아니라 표, 차트 등 레이아웃 정보를 정확하게 인덱싱하여 기존 RAG의 한계를 극복합니다.

웹 스크래핑(Web Scraping)이 방금 무너졌습니다.

연구원들이 웹사이트를 전혀 스크래핑하지 않는 시스템을 구축했습니다.

그것은 스크린샷을 찍습니다.

그게 전부입니다.

HTML을 파싱(Parsing)하고 아무것도 망가지지 않기를 바라는 대신, PixelRAG는 페이지의 스크린샷을 찍고 시각 모델(Vision Model)이 인간처럼 읽을 수 있게 합니다.

이것이 놀라운 이유:

• HTML 파서(Parser)는 페이지의 40% 이상을 조용히 놓칠 수 있습니다.
• 표, 차트, 레이아웃은 종종 쓰레기 데이터로 평탄화(Flattened)됩니다.
• 파서만 바꿔도 정확도가 약 10포인트 정도 변동될 수 있습니다.

PixelRAG는 텍스트가 아닌 픽셀(Pixel)을 인덱싱합니다.

연구팀은 3,000만 개 이상의 위키피디아(Wikipedia) 스크린샷으로 시각적 인덱스를 생성했으며, 텍스트 전용 질문에서도 가장 강력한 텍스트-RAG(Text-RAG) 베이스라인을 18.1% 차이로 앞질렀습니다.

더 놀라운 점은:

그들은 Claude에게 실제 눈을 부여하는 Claude 플러그인을 구축했습니다.

웹페이지, PDF, arXiv 논문 또는 로컬 사이트를 가리키면, DOM을 스크래핑하는 대신 페이지가 실제로 어떻게 보이는지를 읽습니다.

MCP 서버도 필요 없습니다.
백엔드(Backend)도 필요 없습니다.
단 하나의 설정 스크립트면 충분합니다.

파이프라인(Pipeline):

→ 페이지를 이미지 타일(Image Tiles)로 렌더링(Render)
→ 스크린샷에 최적화된 시각 모델(Vision Model)을 사용하여 임베딩(Embed)
→ FAISS에 저장
→ 스크린샷을 검색하고 LLM이 이를 읽도록 함

인덱스는 단순한 픽셀이므로, 모든 것을 다시 구축할 필요 없이 더 나은 판독 모델로 교체하는 것만으로도 성능을 향상시킬 수 있습니다.

Apache-2.0 라이선스 하에 오픈 소스로 공개되었습니다.

AI 자동 생성 콘텐츠