본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 29. 16:19

R$^3$-SQL: 순위 평가 및 재표본추출을 위한 텍스트 투 SQL

요약

R$^3$-SQL은 기존 Text-to-SQL 시스템의 두 가지 주요 문제점인 불일치한 점수 부여와 올바른 SQL 부재 문제를 해결하기 위해 제안된 새로운 프레임워크입니다. 이 프레임워크는 실행 결과가 같은 후보들을 그룹화하고, 그룹 내 일관성을 유지하면서 순위를 매깁니다. 또한, 생성된 후보 풀의 리콜을 개선하기 위해 필요할 경우 재표본추출(resampling) 기능을 추가하여 전반적인 성능과 안정성을 높였습니다.

핵심 포인트

  • R$^3$-SQL은 Text-to-SQL 시스템의 신뢰성 및 정확도를 향상시키는 통합 프레임워크입니다.
  • 기존 방법론의 문제점인 '동일 결과에 대한 불일치한 점수'와 '올바른 SQL 부재 시 한계'를 해결합니다.
  • 후보들을 실행 결과별로 그룹화하고, 쌍별 선호도 및 점별 유용성을 결합하여 일관성 있는 순위 평가를 수행합니다.
  • 필요에 따라 재표본추출(agentic resampling)을 통해 후보 리콜을 개선함으로써 성능의 안정성을 확보했습니다.
  • BIRD-dev 벤치마크에서 높은 실행 정확도(75.03)를 달성하며 최신 기술 수준을 입증했습니다.

현대적인 텍스트 투 SQL(Text-to-SQL) 시스템은 여러 개의 후보 SQL 쿼리를 생성하고 이를 순위화하여 최종 예측을 판단합니다. 그러나 기존 방법론은 두 가지 한계에 직면해 있습니다. 첫째, 동일한 실행 결과를 갖더라도 기능적으로 동등한 SQL 쿼리에 대해 일관성 없는 점수를 부여하는 경우가 많습니다. 둘째, 후보 풀에 올바른 SQL이 존재하지 않을 경우 순위화만으로는 이를 복구할 수 없습니다. 우리는 이러한 두 문제를 순위 평가를 위한 통합 보상(unified reward for ranking)과 재표본추출(resampling)을 통해 해결하는 텍스트 투 SQL 프레임워크인 R$^3$-SQL 을 제안합니다. R$^3$-SQL 은 먼저 실행 결과에 따라 후보들을 그룹화한 뒤, 그룹 간 일관성을 위해 그룹별 순위를 매깁니다. 각 그룹의 점수를 부여하기 위해, 그룹 간 쌍별 선호도(pairwise preference) 와 최고 순위 및 크기를 가진 그룹으로부터의 점별 유용성(pointwise utility) 을 결합하여 상대적 선호도, 일관성, 그리고 후보 품질을 포착합니다. 후보 리콜(candidate recall) 을 개선하기 위해 R$^3$-SQL 은 생성된 후보 풀을 판단하고 올바른 SQL 이 부재할 가능성이 높을 경우 선택적으로 재표본추출(agentic resampling) 을 수행합니다. R$^3$-SQL 은 공개된 크기를 가진 모델을 사용하는 방법들 사이에서 새로운 최고 수준(state of the art) 을 기록하는 BIRD-dev 벤치마크에서 75.03 의 실행 정확도(execution accuracy) 를 달성하며, 다섯 가지 벤치마크 전반에 걸쳐 일관된 성능 향상을 보였습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
5

댓글

0