X요약2026. 06. 20. 23:36

웹 스크래핑의 패러다임이 바뀝니다 (대규모 100% 오픈 소스 시각적 검색)

요약

PixelRAG는 HTML 파싱 대신 스크린샷을 활용하는 시각적 검색 시스템입니다. 텍волю션 모델을 통해 표나 레이아웃 손실 없이 웹 페이지를 인덱싱하며, 기존 텍스트 RAG보다 높은 성능을 보여줍니다.

핵심 포인트

HTML 파싱 과정에서 발생하는 정보 손실(최대 40%) 문제 해결
시각-언어 모델을 활용해 픽셀 데이터에서 직접 정보 추출
Wikipedia 3,000만 개 스크린샷 기반의 강력한 시각적 인덱스 구축
Claude Code용 플러그인을 통해 Claude의 웹 페이지 시각적 이해 지원
Apache-2.0 라이선스의 100% 오픈 소스 프로젝트

웹 스크래핑(Web scraping)은 이전과는 완전히 달라질 것입니다.

(대규모 100% 오픈 소스 시각적 검색)

PixelRAG는 HTML 파싱(parsing)을 완전히 건너뛰는 검색 시스템(retrieval system)입니다.

페이지를 텍스트로 스크래핑하여 청크(chunks)를 임베딩(embedding)하는 대신, 페이지를 스크린샷으로 찍고 이미지를 검색합니다. 시각-언어 모델(vision-language model)이 픽셀에서 직접 정답을 읽어냅니다.

이것이 중요한 이유: 파싱(parsing) 단계는 웹 RAG(Retrieval-Augmented Generation)가 조용히 정보를 손실하는 지점입니다.

단일 HTML-to-text 파서(parser)는 페이지 정보의 40% 이상을 누락할 수 있습니다.
표(tables), 차트(charts), 레이아웃(layout)이 평면화되거나 버려집니다.
동일한 문서에 대해 파서(parser)만 교체해도 정확도가 약 10포인트 정도 변할 수 있습니다.

PixelRAG는 사람이 실제로 보는 페이지를 인덱싱(indexing)합니다. 팀은 Wikipedia 전체에 대한 시각적 인덱스(visual index)인 3,000만 개 이상의 스크린샷을 구축했으며, 이는 텍스트 전용 QA(질의응답)에서 가장 강력한 텍스트 RAG 베이스라인(baseline)보다 18.1% 더 높은 성능을 보여주었습니다.

또한 이 리포지토리(repo)는 Claude에게 눈을 달아주는 Claude Code 플러그인도 제공합니다.

이 플러그인을 통해 Claude는 DOM을 스크래핑하는 대신, 어떤 URL이든 스크린샷을 찍고 렌더링된 페이지를 읽을 수 있습니다. 따라서 라이브 페이지, arXiv 논문, 또는 로컬 사이트를 전달하고 그것이 실제로 어떻게 보이는지 물어볼 수 있습니다.

단 하나의 설정 스크립트만 있으면 됩니다. MCP 서버도, 백엔드(backend)도 필요 없습니다.

파이프라인(pipeline) 작동 방식:

각 문서(웹, PDF, 이미지)를 이미지 타일(image tiles)로 렌더링(renders)합니다.
스크린샷으로 LoRA 미세 조정(fine-tuned)된 Qwen3-VL-Embedding을 사용하여 이를 임베딩(embeds)합니다.
FAISS 인덱스(index)를 구축하고 검색 API(search API)를 제공합니다.

인덱스(index)가 단순히 픽셀(pixels)로 구성되어 있기 때문에, 재인덱싱(re-indexing) 없이 더 강력한 리더 모델(reader model)을 사용하는 것만으로도 정확도를 높일 수 있습니다.

모든 것은 Apache-2.0 라이선스 하에 오픈 소스(open-source)로 제공됩니다.

GitHub 리포지토리: https://t.co/qun9TjAdmw

RAG에 대해 이야기하자면, 저는 최근 코퍼스(corpus) 크기를 40배 줄이고, 쿼리(query)당 토큰(tokens)을 3배 줄이며, 벡터 검색(vector search) 관련성을 2.3배 향상시켜 검색을 훨씬 더 효율적으로 만드는 새로운 접근 방식에 대한 기사를 작성했습니다.

해당 기사는 아래에 인용되어 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

웹 스크래핑의 패러다임이 바뀝니다 (대규모 100% 오픈 소스 시각적 검색)

요약

핵심 포인트

댓글