KG2Cypher: 기업용 Text-to-Cypher 시스템 구축을 위한 데이터 중심 파이프라인
요약
기업용 지식 그래프를 위한 데이터 중심 Text-to-Cypher 파이프라인인 KG2Cypher를 제안합니다. 그래프 사실로부터 쿼리와 자연어 질문 쌍을 생성하고, SFT를 통해 학습된 생성기가 높은 정확도와 실행률을 달성함을 입증했습니다.
핵심 포인트
- 그래프 사실 기반의 Text-Cypher 쌍 생성 파이프라인 구축
- LLM 심사위원 및 인간 검증을 통한 고품질 SFT 데이터 확보
- LoRA 기반 추론 및 클래스 조건부 스키마 프롬프팅 활용
- 한국 기업 환경의 복잡한 쿼리에서도 높은 F1 점수 및 정확도 달성
기업용 지식 그래프 (Enterprise Knowledge Graphs, KGs)는 내부 검색, 분석 및 질의응답을 위해 점점 더 많이 사용되고 있지만, 비공개 기업용 그래프를 위한 자연어 인터페이스를 구축하는 것은 여전히 비용이 많이 듭니다. 우리는 기존의 KGs로부터 기업용 Text-to-Cypher 시스템을 구축하기 위한 데이터 중심 파이프라인인 KG2Cypher를 제시합니다. KG2Cypher는 먼저 관찰된 그래프 사실(graph facts)로부터 실행 가능한 Cypher 쿼리를 구축한 다음, LLM을 사용하여 그와 관련된 자연어 질문을 생성합니다. 결과로 생성된 Text-Cypher 쌍은 LLM 심사위원(LLM judge) 및 인간 검증을 통해 검증되며, 후보 인지형 SFT (candidate-aware SFT) 데이터로 변환됩니다. 학습된 생성기는 클래스 조건부 스키마 프롬프팅 (class-conditioned schema prompting), 엔티티 검색 (entity retrieval), 그리고 LoRA 기반 추론 (LoRA-based inference)과 함께 서비스됩니다. 우리는 짧은 검색 스타일의 쿼리와 스키마 의역(schema paraphrases)으로 인해 언어 접지(language grounding)가 어려운 한국 기업 환경에서 KG2Cypher를 평가합니다. LoRA SFT는 방송 프로그램(broadcast-program) 쿼리에서 실행 결과 F1 점수를 0.806에서 0.950으로, 기업(company) 쿼리에서는 0.70에서 0.92로 향상시킵니다. 11개 클래스 설정에서 KG2Cypher는 95.2%의 정확한 일치(exact match), 99.9%의 실행률(execution rate), 그리고 0.964의 실행 결과 F1을 달성합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기