GitHub요약2026. 06. 15. 10:17

Azure-Samples/rag-as-a-service-with-vision

요약

Azure AI 서비스를 활용하여 MHTML 문서의 텍스트와 이미지를 모두 처리하는 멀티모달 RAG 파이프라인 프레임워크를 제공합니다. 문서 수집, 이미지 강화, 비전 결합 검색 및 성능 평가를 위한 전체 워크플로우를 포함합니다.

핵심 포인트

Azure AI Search와 OpenAI를 활용한 멀티모달 RAG 구현
MLLM을 이용한 이미지 설명 생성 및 데이터 강화 기능
ROUGE 및 LLM-as-a-judge 기반의 RAG 성능 평가 도구 제공
MHTML 파일의 텍스트와 이미지 콘텐츠 통합 처리

이 저장소는 Azure AI Services, Azure AI Search 및 Azure OpenAI Service를 활용하여 MHTML 문서의 텍스트 및 이미지 콘텐츠를 모두 사용하여 사용자 질의에 답변할 수 있는 Python 기반 검색 증강 생성 (RAG) 파이프라인을 위한 애플리케이션 프레임워크를 제공합니다. 프로젝트 프레임워크는 다음과 같은 기능을 제공합니다:

수집 흐름 (Ingestion flow): 새로 개발된 강화 파이프라인 (enrichment pipeline)을 사용하여 MHTML 파일을 Azure AI Search로 수집합니다.
강화 흐름 (Enrichment flow): 멀티모달 LLM (MLLM)을 사용하여 이미지 설명을 생성하고 이미지의 콘텐츠를 분류하며, 프로세스 속도를 높이기 위해 강화 결과를 캐싱함으로써 수집된 문서를 강화합니다.
비전 결합 RAG 파이프라인 (RAG with vision pipeline): 강화된 데이터를 활용하여 이미지를 검색하고 추론 (inference) 중에 강화 파이프라인을 통합합니다.
평가 스타터 코드 (Evaluation starter code): ROUGE recall 및 LLM-as-a-judge 기술을 포함한 다양한 지표를 사용하여 특정 RAG 파이프라인 구성의 성능을 평가합니다.

이 저장소는 비전 결합 RAG (RAG with vision)를 위한 시작점을 제공하기 위해 의도되었으며, 주어진 데이터셋에 대해 파이프라인을 미세 조정 (fine-tune)하고 사용자의 요구를 가장 잘 충족하기 위한 추가적인 실험을 가능하게 하는 것을 목표로 합니다.

사전 요구 사항 및 RAG with Vision API를 로컬에서 실행하는 방법에 대한 자세한 내용은 여기를 참조하십시오.

이 저장소에는 ms-vscode-remote.remote-containers 확장 프로그램을 사용하여 VSCode에서 사용할 수 있는 devcontainer도 포함되어 있습니다.

전체적인 추론 (inference) 흐름은 다음 다이어그램을 통해 설명할 수 있습니다:

문서 수집 프로세스 및 이미지 강화 서비스를 포함한 RAG with Vision 아키텍처의 전체 개요를 보려면 이 아키텍처 문서를 참조하십시오. RAG 파이프라인 평가에 대한 소개와 이 저장소에서 제공하는 스타터 평가 흐름, 그리고 내부 및 외부 루프 피드백 수집을 위한 제안은 여기에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Azure-Samples/rag-as-a-service-with-vision

요약

핵심 포인트

댓글