PolySQL: 자동 백엔드 동형성(Automated Backend Isomorphism)을 통한 SQL 방언 간 Text-to-SQL 평가

데이터베이스 엔진마다 SQL 방언은 구문, 타입, 함수에서 차이가 있습니다. 그러나 Text-to-SQL 벤치마크는 주로 SQLite만 지원하는 경우가 많습니다. 이는 심각한 평가 격차를 만듭니다: 다른 방언과의 교차(cross-dialect) 평가는 낮은 질의별 일치도(Cohen's $\kappa$)를 보여주며, SQLite 성능이 다른 방언에 대한 신뢰할 수 있는 대리 지표가 아님을 나타냅니다. 하지만 이러한 평가는 여전히 수행하기 어렵습니다: 기존 접근 방식은 값비싼 수동 쿼리 변환(query transpilation)을 요구하거나 복잡한 SQL에서 종종 실패하는 도구에 의존합니다. 이 격차를 해소하기 위해, 우리는 정규화된 실행 결과를 비교하여 쿼리 변환의 필요성을 없애는 새로운 이중 실행 방식인 PolySQL을 소개합니다. 특히, 우리의 접근 방식은 100% 질의 커버리지로 쿼리 변환보다 높은 평가 충실도(evaluation fidelity)를 달성합니다. PolySQL은 세 가지 데이터셋으로 구성되어 최초의 대규모 방언 간 연구를 가능하게 합니다. 우리의 연구는 SQLite에서 다른 방언으로 이동할 때 평균 정확도가 10.1% 하락하며, 상당한 방언 난이도 계층 구조를 식별했음을 보여줍니다. 우리는 이러한 저하가 구문적 오류보다는 논리적 오류(61% 대 8%)에서 비롯된다는 것을 발견했습니다. 우리는 엄격한 방언 강건성 평가를 가능하게 하기 위해 프레임워크 코드와 리더보드를 공개합니다.

Insights

PolySQL: 자동 백엔드 동형성(Automated Backend Isomorphism)을 통한 SQL 방언 간 Text-to-SQL 평가

요약

핵심 포인트

댓글

LLM 제공업체를 변경한 후에만 발생했던 버그

Nvidia의 Blackwell이 기밀 AI (Confidential AI)의 계산 방식을 바꾸는 이유

Amazon S3 Files: 작동 방식, 성능 경계 및 JuiceFS와의 비교

2026년 AI 보안의 현황: 모든 AI 네이티브 기업에 구조화된 보안 감사 (Security Audit)가 필요한 이유

LLM 제공업체를 변경한 후에만 발생했던 버그

Nvidia의 Blackwell이 기밀 AI (Confidential AI)의 계산 방식을 바꾸는 이유

Amazon S3 Files: 작동 방식, 성능 경계 및 JuiceFS와의 비교

2026년 AI 보안의 현황: 모든 AI 네이티브 기업에 구조화된 보안 감사 (Security Audit)가 필요한 이유