본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 04. 19:44

EGRefine: 텍스트-SQL 스키마 정교화를 위한 실행 기반 최적화 프레임워크

요약

EGRefine은 텍스트-SQL 모델의 정확도를 저하시키는 모호하거나 약축된 스키마 문제를 해결하기 위해 개발된 실행 기반 최적화 프레임워크입니다. 이 방법론은 데이터베이스 뷰를 활용하여 쿼리 동등성을 유지하면서, 다운스트림 텍스트-SQL 실행 정확도를 최대화하는 컬럼 리네이밍 함수를 찾는 것을 목표로 합니다. EGRefine은 스크리닝, 컨텍스트 기반 후보 생성, 실행 기반 검증의 4단계 파이프라인을 통해 구조적으로 안전하고 신뢰할 수 있는 정교화된 스키마를 제공합니다.

핵심 포인트

  • EGRefine은 Text-to-SQL의 핵심 문제인 모호한 스키마(Schema Ambiguity) 문제를 해결하는 실행 기반 최적화 프레임워크입니다.
  • 핵심 아이디어는 데이터베이스 뷰를 사용하여 '쿼리 동등성'을 유지하면서, 모델 성능 향상에 가장 기여하는 컬럼 리네이밍 함수를 찾는 것입니다.
  • 제안된 파이프라인은 스크리닝-후보 생성-검증의 4단계로 구성되며, 특히 데이터베이스 수준에서 쿼리 동등성을 보장합니다.
  • 정교화 과정은 구조적으로 안전하여 컬럼 수준의 국소 비퇴화(local non-degradation)를 보장하며, 모델 전이 학습(Model Transfer)에 활용될 수 있습니다.

텍스트-SQL(Text-to-SQL)은 비전문가 사용자가 자연어로 데이터베이스를 쿼리할 수 있게 하지만, 실제 세계의 스키마는 모호하거나 약축된 명명 규칙을 가지고 있어 모델 정확도를 저하시키는 경우가 많습니다. 기존 접근법은 스키마를 고정된 것으로 간주하고 오류를 다운스트림에서 해결합니다. 이 논문에서는 스키마 정교화를 제약 최적화 문제(constrained optimization problem)로 설정합니다: 데이터베이스 뷰(view)를 통해 쿼리 동등성(query equivalence)을 유지하면서 다운스트림 텍스트-SQL 실행 정확도를 최대화하는 리네이밍 함수(renaming function)를 찾습니다. 이 문제의 계산 난도(computational hardness)를 분석하여, 이를 컬럼별 그리디 분해(column-wise greedy decomposition)로 구현하고 EGRefine: 모호한 컬럼을 스크리닝(screening), 컨텍스트 인식 가능한 후보 명칭 생성, 실행 기반 피드백을 통한 검증, 결과물为非破坏性的 SQL 뷰(materialize as non-destructive SQL views)로 4 단계 파이프라인으로 구체화합니다. 이 파이프라인은 두 가지 구조적 특성을 가집니다: 검증 단계의 보수적인 선택 규칙(conservative selection rule)에 의해 보장되는 컬럼 국소 비퇴화(column-local non-degradation), 그리고 뷰 기반 재료화 단계(view-based materialization phase)에 의해 보장되는 데이터베이스 수준 쿼리 동등성(database-level query equivalence). 이 두 가지 특성으로 인해 결과는 컬럼 수준에서 구성적으로 안전합니다. 교차 컬럼 및 프롬프트 수준의 상호작용은 분석적 접근이 아닌 경험적(experimentally) 방식으로 처리됩니다. 제어된 스키마 열화, 실제 세계, 기업 벤치마크를 통해 EGRefine는 스키마 명명 노이즈로 인한 정확도 손실을 회복하며, 현재 텍스트-SQL 능력의 한계를 초과하는 작업에서는 올바르게 회피합니다. 정교화된 스키마는 모델 가족 간에 전이되어 refine-once, serve-many-models 배포를 가능하게 합니다. 코드와 데이터는 https://github.com/ai-jiaqian/EGRefine 에서 공개적으로 이용 가능합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0