이기종 기업 데이터베이스를 위한 자연어-SQL 변환(NL2SQL)용 시맨틱 레이어 매개 에이전트
요약
기업용 복잡한 데이터베이스 환경에서 NL2SQL 성능을 높이기 위해 시맨틱 레이어를 활용하는 새로운 에이전트 구조를 제안합니다. 중간 표현인 SMQ를 통해 SQL 방언 문제를 해결하고, Gemini 1.5 Pro를 활용해 Spider2-snow 벤치마크에서 높은 정확도를 기록했습니다.
핵심 포인트
- 시맨틱 레이어를 통해 물리적 SQL과 시맨틱 의도를 분리
- SMQ(Semantic Model Query)라는 중간 표현 방식 도입
- SQLite, BigQuery, Snowflake 등 이기종 DB 지원
- Spider2-snow 벤치마크에서 실행 정확도 94.15% 달성
- 결정론적 컴파일러를 통한 SQL 생성의 신뢰성 확보
실제 기업 데이터베이스를 대상으로 하는 자연어-SQL 변환 (NL2SQL)은 학술적 벤치마크에서보다 훨씬 더 까다로운 과제로 남아 있습니다. 기업 스키마 (Schema)는 종종 암호 같은 컬럼 이름, 이기종 SQL 방언 (SQL dialects), 그리고 중첩 집계 (nested aggregations), 시계열 추론 (temporal reasoning), 다중 테이블 조인 (multi-table joins)을 요구하는 복잡한 분석 워크로드를 포함하는 수백 개의 물리적 테이블을 포함합니다. 본 논문에서는 시맨틱 의도 (semantic intent)를 물리적 SQL 실행으로부터 분리하는 시맨틱 레이어 매개 (semantic-layer-mediated) NL2SQL 에이전트를 제시합니다. 에이전트는 원시 스키마 (raw schemas) 상에서 직접 SQL을 생성하는 대신, 시맨틱 모델 쿼리 (Semantic Model Query, SMQ)라고 불리는 압축된 중간 표현 (intermediate representation)을 통해 정제된 시맨틱 레이어 (semantic layer) 상에서 추론합니다. 결정론적 컴파일러 (deterministic compiler)는 각 SMQ를 특정 방언에 맞는 SQL로 변환하여, 에이전트가 최종 쿼리로 조합할 수 있는 검증된 빌딩 블록 (building blocks)을 제공합니다. 이 시스템은 제약된 사고-행동 루프 (constrained think-act loop)를 채택하며, SQLite, BigQuery, Snowflake 백엔드를 지원하고, 엔드-투-엔드 (end-to-end) 평가 프레임워크에 통합되어 있습니다. Gemini 3 Pro를 사용하여, 이 시스템은 547개 태스크로 구성된 Spider2-snow 벤치마크에서 94.15%의 실행 정확도 (execution accuracy)를 달성하였으며, 공식 리더보드에서 3위를 기록하였고 스키마 전용 (schema-only) 방식들을 크게 능가했습니다. 본 논문에서는 시스템 아키텍처, SMQ 표현, 에이전트 워크플로우, 평가 결과에 대해 설명하며, 시맨틱 레이어의 품질과 향상된 그라운딩 (grounding) 및 과적합 (overfitting) 사이의 트레이드오프 (trade-off)에 대해 논의합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기