CLARITY: 대화형 NL2SQL 시스템에서의 언어 모호성과 답변 불가능성을 위한 프레임워크 및 벤치마크
요약
Clarity는 대화형 자연어-SQL(NL2SQL) 시스템의 현실적인 실패 시나리오를 다루기 위해 설계된 새로운 프레임워크이자 벤치마크입니다. 이 프레임워크는 단일 및 다중 턴 설정에서 다양한 모호성과 사용자 행동을 가진 NL2SQL 쿼리를 자동으로 생성합니다. 실험 결과, 기존 선도 시스템들은 복합적인(다면적) 모호성 하에서 성능이 크게 저하되며, 단순히 모호성을 감지하는 것을 넘어 근본적인 도식 수준의 원인을 파악하고 해결하는 데 어려움을 겪는 것으로 나타났습니다.
핵심 포인트
- 기존 NL2SQL 벤치마크는 현실 세계의 복잡한 대화형 시나리오와 실패 모드를 충분히 반영하지 못합니다.
- Clarity 프레임워크는 단일 및 다중 턴 환경에서 다양한 수준의 모호성을 가진 NL2SQL 데이터를 자동으로 생성할 수 있습니다.
- 최신 LLM 기반 NL2SQL 시스템들은 복합적인(다면적) 모호성 상황에 취약하며 성능 저하가 관찰되었습니다.
- 효과적인 산업용 NL2SQL 시스템은 단순히 모호성을 감지하는 것을 넘어, 도식 수준의 근본 원인을 정확하게 파악하고 해결할 수 있어야 합니다.
산업 현장에서 배포된 NL2SQL 시스템은 특히 불완전한 사용자 설명이 있는 대화형 시나리오에서 모호하거나 답변할 수 없는 쿼리를 자주 마주칩니다. 기존 벤치마크들은 일반적으로 단일 출처의 모호성을 가정하고 해결을 위해 사용자 상호작용에 의존하며, 현실적인 실패 모드를 간과합니다. 우리는 Clarity를 소개합니다. 이는 단일 턴 및 다중 턴 설정 모두에서 다양한 모호성과 사용자의 다양한 행동을 가진 NL2SQL 벤치마크를 자동으로 생성하기 위한 프레임워크입니다. 제약 조건 기반 파이프라인을 사용하여 Clarity는 실행 가능한 SQL을 모호한 쿼리로 변환하며, 이를 도식 수준의 메타데이터와 함께 지면화된 대화적 연속성으로 보강합니다. Spider 및 BIRD에 대한 경험적 평가에서 강력한 LLM 기반을 포함한 선두 NL2SQL 시스템은 다면적 모호성 하에서 심각한 성능 저하를 겪는 것으로 나타났습니다. 이러한 시스템들은 종종 모호성을 감지하지만, 근본적인 도식 수준의 원인을 정확하게 파악하고 해결하는 데 어려움을 겪습니다. 우리의 결과는 산업용 NL2SQL 시스템에서 더 강력한 모호성 감지 및 해결이 필요함을 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기