arXiv논문2026. 06. 23. 14:06

SQLConductor: 단계별 Text-to-SQL 오케스트레이션을 위한 Search-to-Policy 학습

요약

SQLConductor는 복잡한 Text-to-SQL 작업을 위해 단계별 오케스트레이션을 수행하는 새로운 학습 프레임워크를 제안합니다. MCTS와 Search-to-Policy 학습을 통해 중간 결과와 피드백에 따라 유연하게 다음 액션을 선택하며, 기존 방식보다 뛰어난 실행 정확도와 일반화 성능을 보여줍니다.

핵심 포인트

고정된 파이프라인 대신 피드백 기반의 단계별 오케스트레이션 제공
MCTS를 활용한 Search-to-Policy 학습 방식 도입
안정성 가중치 지도 미세 조정 및 커리큘럼 강화 학습 적용
BIRD-Dev 데이터셋에서 73.2%의 높은 실행 정확도(EX) 달성

Text-to-SQL은 사용자가 자연어를 통해 관계형 데이터베이스(Relational Database)에 접근할 수 있게 해주지만, 복잡한 데이터베이스 환경에 대한 조정된 추론(Coordinated Reasoning)으로 인해 실제 환경에서는 여전히 어려움이 남아 있습니다. 기존 시스템들은 종종 다단계 파이프라인(Multi-stage Pipelines)이나 개별 단계에 특화된 추론 모델을 사용합니다. 그러나 고정된 파이프라인은 미리 정의된 단계 순서에 의존하므로, 쿼리 요구 사항 및 중간 증거에 대한 적응성이 제한됩니다. 최근의 오케스트레이션(Orchestration) 기반 방법들은 각 쿼리에 대해 특화된 모듈을 구성함으로써 유연성을 제공하지만, 전형적인 '계획 후 실행(Plan-then-execute)' 방식은 실행 전에 완전한 워크플로우를 확정해 버리며 중간 결과물(Intermediate Artifacts)과 피드백에 적응할 수 없습니다.

본 논문에서는 Text-to-SQL을 위한 단계별 오케스트레이션 학습 프레임워크인 SQLConductor를 제안합니다. SQLConductor는 Text-to-SQL 하위 작업들을 워크플로우 구성을 위한 특화된 액션(Action)으로 공식화하며, 중간 결과물과 피드백을 기반으로 다음 액션을 선택하도록 정책 모델(Policy Model)을 학습시킵니다. 이 정책을 학습하기 위해 SQLConductor는 Search-to-Policy Learning을 도입합니다. 이는 몬테카를로 트리 탐색(Monte Carlo Tree Search, MCTS)을 사용하여 후보 워크플로우를 탐색하고, 안정성 추정(Stability Estimation)을 통해 견고한 감독(Supervision)을 식별합니다. 정책 모델은 고품질의 오케스트레이션 패턴을 우선시하도록 안정성 가중치 지도 미세 조정(Stability-weighted Supervised Fine-tuning)을 통해 학습되며, 커리큘럼 강화 학습(Curriculum Reinforcement Learning)을 통해 더욱 강화됩니다. 이는 오프라인 워크플로우 탐색을 추론 시 단계별 오케스트레이션을 위한 배포 가능한 정책으로 변환합니다.

BIRD-Dev 및 분포 외(Out-of-distribution) 데이터셋에 대한 실험 결과, SQLConductor는 우수한 실행 정확도와 강력한 일반화 성능을 달성함을 보여주었습니다. SQLConductor는 동결된(Frozen) 더 큰 액션 모델들을 조정하는 컴팩트한 오케스트레이션 정책을 통해 BIRD-Dev에서 73.2%의 EX를 달성하였으며, 이는 유사하거나 더 큰 Text-to-SQL 백본(Backbone)을 직접 학습시킨 기존 방법들보다 뛰어난 성능입니다. 추가 분석을 통해 학습된 정책이 다양한 쿼리 요구 사항에 맞춰 오케스트레이션을 적응시킨다는 것을 확인했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

SQLConductor: 단계별 Text-to-SQL 오케스트레이션을 위한 Search-to-Policy 학습

요약

핵심 포인트

댓글