EntSQL: 긴 컨텍스트 기업 지식 내 Text-to-SQL 그라운딩을 위한 벤치마크
요약
기업의 비공개 비즈니스 지식과 긴 컨텍스트를 활용한 Text-to-SQL 능력을 평가하기 위한 새로운 벤치마크 EntSQL을 소개합니다. 기존 벤치마크가 간과한 조직 규칙과 도메인 지식 기반의 SQL 생성 난이도를 입증합니다.
핵심 포인트
- 기업용 Text-to-SQL 평가를 위한 EntSQL 벤치마크 제안
- 비공개 비즈니스 문서 및 긴 컨텍스트 그라운딩 능력 평가
- 5개 도메인, 1,066개의 중-영 의미론적 예시 포함
- 긴 문서 제공 시 최고 성능이 15.9%에 불과할 정도로 높은 난이도
Text-to-SQL (Text-to-SQL)은 데이터베이스에 대한 자연어 접근을 가능하게 하며, 최근의 LLM (Large Language Models)은 이 능력을 상당히 발전시켰습니다. Spider, BIRD, Spider~2.0과 같은 기존 벤치마크들은 스키마 일반화 (schema generalization), 대규모 데이터베이스, 그리고 현실적인 워크플로우를 평가하지만, 내부 지표, 보고 관례, 조직 규칙과 같이 SQL 생성이 비공개 비즈니스 지식에 의존하는 기업 시나리오(enterprise scenarios)는 대체로 간과하고 있습니다. 우리는 독점적인 비즈니스 문서에 대한 긴 컨텍스트 그라운딩 (long-context grounding)을 평가하기 위한 기업 지향적 Text-to-SQL 벤치마크인 EntSQL을 소개합니다. EntSQL은 5개의 비즈니스 도메인에 걸쳐 정렬된 1,066개의 중-영(Chinese-English) 의미론적 예시를 포함하고 있으며, 대부분의 예시는 질문과 스키마를 넘어서는 도메인 지식을 요구하고 복잡한 SQL 구조를 포함합니다. 영어 입력에 대해, 가장 성능이 좋은 평가 시스템은 긴 형태의 문서가 제공되었을 때 단 15.9%에 도달하였으며, 이는 기업 지식에 SQL 생성을 그라운딩(grounding)하는 것이 얼마나 어려운지를 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기