EviLink: 대규모 Text-to-SQL을 위한 불확실성 유도 증거 획득 기반의 다중 경로 스키마 연결 (Schema Linking)
요약
EviLink는 대규모 Text-to-SQL 작업에서 스키마 연결을 불확실성 인지 추론 문제로 재정의한 연구입니다. 다중 가설 그라운딩과 증거 획득 방식을 결합하여 스키마의 완전성, 관련성, 토큰 비용 간의 최적의 균형을 달성합니다.
핵심 포인트
- 스키마 연결을 단일 경로가 아닌 다중 경로 불확실성 문제로 정의
- 필수 항목과 불확실한 항목을 구분하여 필요한 증거만 획득
- Spider2-Snow 벤치마크에서 90.15%의 필드 수준 엄격 재현율 달성
- 스키마 관련성 향상 및 토큰 비용 효율성 개선
스키마 연결 (Schema linking)은 대규모 Text-to-SQL에서 어렵고도 중요한 단계로, 시스템은 크고 모호한 데이터베이스로부터 간결하면서도 충분한 스키마 컨텍스트 (schema context)를 식별해야 합니다. 기존 방법들은 종종 스키마 연결을 단일 SQL 경로 주변의 결정론적 선택 (deterministic selection)으로 취급하지만, 복잡한 질문은 서로 다른 스키마 요구 사항을 가진 여러 개의 유효한 구현 (realizations)을 허용할 수 있습니다. 우리는 스키마 연결을 여러 가능한 SQL 경로에 대한 불확실성 인지 스키마 요구 추론 (uncertainty-aware schema-need inference)으로 재정의하며, 여기서 시스템은 필수적인 스키마 항목과 경로에 따라 달라지는 불확실한 항목을 구분하고 필요한 경우에만 증거를 획득합니다. 우리는 다중 가설 스키마 그라운딩 (multi-hypothesis schema grounding)과 불확실성 유도 증거 획득 (uncertainty-guided evidence acquisition)을 결합한 EviLink를 통해 이러한 재정의를 구체화합니다. BIRD-Dev 및 Spider2-Snow에 대한 실험 결과, 이러한 관점이 스키마 완전성 (schema completeness), 스키마 관련성 (schema relevance), 그리고 토큰 비용 (token cost) 사이의 균형을 개선함을 보여줍니다. Spider2-Snow에서 EviLink는 90.15%의 필드 수준 엄격 재현율 (field-level strict recall rate)을 달성하였고, 평균 123.30K 토큰을 사용하며, 고정된 생성기 (generator) 하에서 다운스트림 SQL 생성을 개선했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기