본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 22. 01:48

웹 페이지를 스크린샷으로 찍어 AI가 이미지 그대로 읽는다. HTML을 텍스트로 변환하는 과정을 통째로 버리는 발상의 RAG가 등장했다.

요약

PixelRAG는 웹 페이지를 HTML 텍스트로 변환하는 대신 스크린샷 이미지로 직접 읽어 처리하는 새로운 RAG 방식입니다. 이를 통해 표나 그래프의 레이아웃 손실 문제를 해결하며, 기존 텍스트 기반 RAG보다 높은 정확도를 보여줍니다.

핵심 포인트

  • HTML 변환 과정 없이 스크린샷을 직접 활용하여 레이아웃 정보 보존
  • 6개 벤치마크에서 기존 텍스트 RAG 대비 최대 18.1% 정확도 향상
  • Qwen3-VL-Embedding-2B 모델을 LoRA 기법으로 파인튜닝하여 구현
  • 스크레이핑 및 복잡한 웹 구조 해석 문제 해결

웹 페이지를 스크린샷으로 찍어 AI가 이미지 그대로 읽게 합니다. 이것은 HTML을 텍스트로 변환하는 과정을 완전히 생략하는 새로운 RAG의 아이디어입니다.

RAG는 AI가 외부 문서를 검색하여 답변의 근거로 사용하는 메커니즘을 의미합니다.

표나 그래프의 레이아웃이 깨지거나, 스크레이핑 (Scraping)이 원활하게 작동하지 않는 문제들. 이러한 문제들을 "그냥 이미지로 캡처한다"는 단순한 아이디어로 묶어서 해결합니다.

이것이 PixelRAG입니다.

AI에게 정보를 읽히기 전 단계에서 은근히 까다로운 것이 웹 페이지의 구조 해석입니다.

HTML을 텍스트로 변환하는 처리는 표, 그래프, 대시보드 (Dashboard)의 레이아웃 정보를 모두 버립니다. 보기 좋게 정돈된 정보일수록 변환 후에는 엉망이 됩니다.

PixelRAG는 그 변환 과정을 처음부터 수행하지 않습니다.

정확도 차이가 나타나고 있습니다.

6개의 벤치마크 (Benchmark) 모두에서 텍스트 RAG를 능가하며, 최대 +18.1%의 정확도 향상을 보였습니다.

구체적인 수치 (SimpleQA 벤치마크):
→ 스코어 (Score): 71.6 → 78.8

사용된 모델은 Qwen3-VL-Embedding-2B 모델을 스크린샷 데이터로 LoRA (Low-Rank Adaptation)라는 기법을 통해 파인튜닝 (Fine-tuning, 추가 학습)한 것입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 X @so_ainsight (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0