소비자용 하드웨어에서의 GraphRAG: 의료 EHR 스키마 검색을 위한 로컬 LLM 벤치마킹

그래프 기반 검색 증강 생성 (GraphRAG)은 복잡한 코퍼스(Corpora)에 대한 구조적 추론을 지원하기 위해 검색 증강 생성 기술을 확장하지만, 자원이 제한되고 개인정보 보호가 민감한 배포 환경에서의 신뢰성은 여전히 불분명합니다. 전자 건강 기록 (EHR) 데이터가 복잡하고 엄격하게 규제되는 의료 분야에서, 클라우드 기반 대규모 언어 모델 (LLMs)에 의존하는 것은 비용, 지연 시간 (Latency), 그리고 규정 준수 측면에서 어려움을 초래합니다. 본 연구에서는 로컬에 배포된 오픈 소스 LLM을 사용하여 EHR 스키마 검색을 위한 GraphRAG의 체계적인 평가를 제시합니다. 우리는 실제 EHR 스키마 문서에 Microsoft GraphRAG 파이프라인을 구현하고, 단일 소비자용 GPU (8 GB VRAM)에서 Ollama를 통해 배포된 Llama 3.1 (8B), Mistral (7B), Qwen 2.5 (7B), Phi-4-mini (3.8B)를 포함한 4가지 모델을 벤치마킹합니다. 우리는 전역(Global) 및 지역(Local) 검색 모드 모두에서 인덱싱 효율성, 지식 그래프 (Knowledge Graph) 구축, 쿼리 지연 시간, 답변 품질, 그리고 환각 (Hallucination)을 평가합니다. 연구 결과 상당한 차이가 드러났습니다: Llama 3.1은 가장 풍부한 지식 그래프 (1,172개 엔티티)를 생성하였고, Qwen 2.5는 가장 우수한 답변 품질 (3.3/5)을 달성했으며, Phi-4-mini는 구조화된 출력 (Structured-output) 오류로 인해 파이프라인을 완료하지 못했고, Mistral은 퇴보적인 반복 동작을 보였습니다. 나아가 우리는 GraphRAG가 실질적인 용량 임계값을 나타내며, 약 7B 파라미터 미만의 모델은 유효한 구조화된 출력을 안정적으로 생성하지 못하고 파이프라인을 완료할 수 없음을 보여줍니다. 또한, 인덱싱과 답변 품질은 모델 간에 분리되어 있으며, 지역 검색은 지연 시간과 사실적 근거 (Factual grounding) 측면 모두에서 전역 요약보다 일관되게 우수한 성능을 보이며 환각 또한 감소했습니다. 이러한 발견은 GraphRAG가 소비자용 하드웨어에서도 실행 가능하다는 것을 입증하는 동시에, 규제 환경에서의 견고한 배포를 위한 모델 선택과 검색 설계의 중요성을 강조합니다.

Insights

소비자용 하드웨어에서의 GraphRAG: 의료 EHR 스키마 검색을 위한 로컬 LLM 벤치마킹

요약

핵심 포인트

댓글

선형화의 핵심: 분석 기반 트랜스포머 선형화

Co-LMLM: 연속 질의 기반 제한 메모리 언어 모델

SkillCenter: 자율 AI 에이전트를 위한 대규모 출처 기반 스킬 라이브러리

OpenAI, GPT‑Live 공개

선형화의 핵심: 분석 기반 트랜스포머 선형화

Co-LMLM: 연속 질의 기반 제한 메모리 언어 모델

SkillCenter: 자율 AI 에이전트를 위한 대규모 출처 기반 스킬 라이브러리

OpenAI, GPT‑Live 공개