근거 기반 지식 그래프 데이터 생성을 통한 정밀한 Text-To-Cypher 달성
요약
본 논문은 소형 LLM을 활용하여 정밀한 Text-To-Cypher 성능을 구현하기 위한 자동 합성 데이터 생성 방법을 제안합니다. 지식 그래프 데이터 생성을 통해 소형 모델의 성능을 대규모 폐쇄형 모델 수준으로 끌어올릴 수 있음을 입증했습니다.
핵심 포인트
- 지식 그래프 기반의 자동 합성 데이터 생성 방법론 제시
- 소형 LLM 미세 조정을 통한 Text-To-Cypher 성능 극대화
- 대규모 폐쇄형 모델과 경쟁 가능한 수준의 정확도 달성
- 데이터 주권 보장 및 비용 효율적인 로컬 배포 가능성 확인
속성 그래프 (Property Graphs)는 이기종 데이터 소스를 표현하기 위한 데이터베이스 프레임워크로 빠르게 채택되고 있습니다. 이들에 포함된 정보에 정밀하게 접근하기 위해서는 Text-To-Cypher (Text2Cypher) 파서에 기반한 대화형 인터페이스가 필요합니다. 본 논문은 이 작업을 위해 소형 LLM (Large Language Models)을 미세 조정 (fine-tuning)하는 데 활용할 수 있는 자동 합성 데이터 생성 방법을 제시합니다. 우리는 모든 주요 Text-To-Cypher 벤치마크에서 실험을 수행하였으며, 우리의 합성 데이터 생성 접근 방식을 통해 소형 LLM의 성능을 크게 향상시켜 훨씬 더 큰 규모의 폐쇄형 모델 (proprietary models)과 경쟁할 수 있음을 입증했습니다. 이는 모델을 로컬에 배포해야 하는 환경에서, 정확도를 희생하거나 비용이 많이 드는 어노테이션 (annotation) 캠페인 없이도 데이터 주권 (data-sovereignty)을 보장할 수 있음을 의미합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기