프로덕션 텍스트-투-SQL 시스템의 SQL 정확도 평가: 에이전트 독립적 접근
요약
본 기사는 실제 운영 환경(프로덕션)에서 사용되는 텍스트-투-SQL(T2SQL) 시스템의 정확도를 평가하는 새로운 프레임워크 'Stef'를 제안합니다. 기존 평가는 정답 쿼리나 데이터베이스 스키마에 의존하여 현장 적용이 어렵다는 한계가 있었습니다. Stef는 이러한 외부 의존성 없이 자연어 입력만으로 작동하며, 복합 지표와 견고한 정규화 처리를 통해 해석 가능한 정확도 점수를 제공함으로써 T2SQL 에이전트의 지속적인 모니터링 및 개선을 가능하게 합니다.
핵심 포인트
- 기존 T2SQL 평가는 스키마나 정답 쿼리에 의존하여 프로덕션 환경 적용에 한계가 있다.
- Stef(Schema-agnostic Text-to-SQL Evaluation Framework)는 외부 데이터베이스 스키마 없이 자연어 입력만으로 평가가 가능하다.
- Stef는 의미론적 규격화, 기능/필터 정렬, 그리고 신뢰도 점수 등 복합 지표를 사용하여 해석 가능한 정확도 점수를 산출한다.
- 강화된 질문 품질 검증 및 프로덕션 견고한 정규화 처리를 통해 실제 운영 환경에서의 평가 신뢰도를 높였다.
프로덕션 환경에서의 텍스트-투-SQL (T2SQL) 평가는 기존 벤치마크가 다루지 못하는 근본적인 과제를 안고 있습니다. 현재 사용되는 평가 방법론은 규칙 기반 SQL 매칭이나 스키마 의존적 의미론적 파서를 사용하지만, 이는 모두 정답 쿼리 (ground-truth queries) 와 구조화된 데이터베이스 스키마에 접근할 수 있어야 한다는 전제 조건을 요구합니다. 그러나 실제 현장 배포에서는 이러한 제약 조건이 거의 충족되지 않습니다. 이 단절로 인해 프로덕션 T2SQL 에이전트는 개발 단계의 테스트를 넘어 평가받지 못해, 지속적인 개선을 위한 피드백 메커니즘 없이 침묵하는 품질 저하가 발생합니다.
우리는 스키마에 독립적인 텍스트-투-SQL 평가 프레임워크 (Stef: Schema-agnostic Text-to-SQL Evaluation Framework) 를 제시합니다. Stef 는 데이터베이스 스키마나 참조 쿼리가 필요 없는 자연어 입력 (사용자 질문, 강화된 재구성 문장, 생성된 SQL) 만으로 작동하는 프로덕션 네이티브 평가 시스템입니다. Stef 는 자연어와 SQL 표현 모두에서 의미론적 규격화를 추출하고, 정규화된 기능 정렬을 수행하며, 필터 정렬, 의미론적 판정, 평가자의 신뢰도를 포괄하는 복합 지표를 통해 0 에서 100 점의 해석 가능한 정확도 점수를 생성합니다.
주요 기여 사항은 다음과 같습니다: 첫 번째 클래스 평가 신호로 작용하는 강화된 질문 품질 검증, 프롬프트 템플릿화를 통한 적용 가능한 규칙 주입, 그리고 GROUP BY 허용 범위, ORDER BY 기본값, LIMIT 휴리스틱을 처리하는 프로덕션 견고한 정규화 처리입니다. 경험적 결과는 Stef 가 스키마 의존성 없이 프로덕션 모니터링 및 에이전트 개선 피드백 루프를 가능하게 함으로써, 구조화된 쿼리 평가가 처음으로 대규모로 실현 가능하도록 함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기