소비자용 하드웨어에서의 GraphRAG: 의료 EHR 스키마 검색을 위한 로컬 LLM 벤치마킹
요약
본 연구는 개인정보 보호가 중요한 의료 EHR 데이터 환경에서 소비자용 GPU를 활용한 로컬 LLM 기반 GraphRAG의 성능을 벤치마킹합니다. Llama 3.1, Mistral, Qwen 2.5, Phi-4-mini 모델을 대상으로 인덱싱 효율성, 지연 시간, 답변 품질 등을 평가하여 모델 크기와 검색 모드에 따른 성능 차이를 분석했습니다.
핵심 포인트
- Llama 3.1은 가장 풍부한 지식 그래프 엔티티를 생성하며 인덱싱 측면에서 강점을 보였습니다.
- Qwen 2.5는 테스트된 모델 중 가장 우수한 답변 품질을 달성했습니다.
- 7B 파라미터 미만의 모델은 구조화된 출력을 안정적으로 생성하지 못해 파이프라인 완수가 어려울 수 있습니다.
- 지역(Local) 검색 모드가 전역(Global) 요약보다 지연 시간과 사실적 근거 측면에서 우수하며 환각 현상이 적습니다.
- GraphRAG는 8GB VRAM 수준의 소비자용 하드웨어에서도 실행 가능함을 입증했습니다.
그래프 기반 검색 증강 생성 (GraphRAG)은 복잡한 코퍼스(Corpora)에 대한 구조적 추론을 지원하기 위해 검색 증강 생성 기술을 확장하지만, 자원이 제한되고 개인정보 보호가 민감한 배포 환경에서의 신뢰성은 여전히 불분명합니다. 전자 건강 기록 (EHR) 데이터가 복잡하고 엄격하게 규제되는 의료 분야에서, 클라우드 기반 대규모 언어 모델 (LLMs)에 의존하는 것은 비용, 지연 시간 (Latency), 그리고 규정 준수 측면에서 어려움을 초래합니다. 본 연구에서는 로컬에 배포된 오픈 소스 LLM을 사용하여 EHR 스키마 검색을 위한 GraphRAG의 체계적인 평가를 제시합니다. 우리는 실제 EHR 스키마 문서에 Microsoft GraphRAG 파이프라인을 구현하고, 단일 소비자용 GPU (8 GB VRAM)에서 Ollama를 통해 배포된 Llama 3.1 (8B), Mistral (7B), Qwen 2.5 (7B), Phi-4-mini (3.8B)를 포함한 4가지 모델을 벤치마킹합니다. 우리는 전역(Global) 및 지역(Local) 검색 모드 모두에서 인덱싱 효율성, 지식 그래프 (Knowledge Graph) 구축, 쿼리 지연 시간, 답변 품질, 그리고 환각 (Hallucination)을 평가합니다. 연구 결과 상당한 차이가 드러났습니다: Llama 3.1은 가장 풍부한 지식 그래프 (1,172개 엔티티)를 생성하였고, Qwen 2.5는 가장 우수한 답변 품질 (3.3/5)을 달성했으며, Phi-4-mini는 구조화된 출력 (Structured-output) 오류로 인해 파이프라인을 완료하지 못했고, Mistral은 퇴보적인 반복 동작을 보였습니다. 나아가 우리는 GraphRAG가 실질적인 용량 임계값을 나타내며, 약 7B 파라미터 미만의 모델은 유효한 구조화된 출력을 안정적으로 생성하지 못하고 파이프라인을 완료할 수 없음을 보여줍니다. 또한, 인덱싱과 답변 품질은 모델 간에 분리되어 있으며, 지역 검색은 지연 시간과 사실적 근거 (Factual grounding) 측면 모두에서 전역 요약보다 일관되게 우수한 성능을 보이며 환각 또한 감소했습니다. 이러한 발견은 GraphRAG가 소비자용 하드웨어에서도 실행 가능하다는 것을 입증하는 동시에, 규제 환경에서의 견고한 배포를 위한 모델 선택과 검색 설계의 중요성을 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기