arXiv논문2026. 06. 17. 11:49

DecoSearch: Text-to-SQL을 위한 복잡도 인식 라우팅 및 계획 수준 수리 (Plan-Level Repair)

요약

DecoSearch는 복잡한 Text-to-SQL 질의를 해결하기 위해 질문의 난이도에 따라 추론 경로를 라우팅하는 training-free 프레임워크입니다. 스키마 선택, 질문 분해, 계획 수준 수리 과정을 통해 효율적이고 정확한 SQL 생성을 지원합니다.

핵심 포인트

질의 복잡도에 따라 직접 생성 또는 DAG 기반 분해 경로로 라우팅
Topology Refiner를 통해 결함 있는 추론 계획을 재구성하는 수리 기능 제공
DeepSeek 백본 활용 시 BIRD 70.53%, Spider 88.31%의 높은 정확도 달성
기존 방식 대비 10배 적은 토큰을 사용하며 모델 불가지론적 래퍼로 작동

대규모 언어 모델 (LLMs)은 자연어를 SQL로 변환하는 데 있어 놀라운 능력을 보여주었으나, 기존 방식들은 다단계의 데이터 인식 추론 (data-aware reasoning)이 필요한 복잡한 질의에서는 여전히 한계를 보입니다. 우리는 각 질의를 적절한 수준의 추론 노력으로 라우팅함으로써 이 문제를 해결하는 훈련이 필요 없는 (training-free) 프레임워크인 DecoSearch를 소개합니다. 경량화된 스키마 선택기 (Schema Selector)가 먼저 전체 데이터베이스 스키마를 관련 테이블과 컬럼으로 가지치기합니다. 그 다음 LLM 판단기 (LLM Judger)가 질문에 분해 (decomposition)가 필요한지 결정합니다. 단순한 질문은 직접적인 생성 경로를 따르고, 복잡한 질문은 원자적 하위 질문 (atomic sub-questions)들의 유향 비순환 그래프 (Directed Acyclic Graph, DAG)로 격상되어, 각 질문은 타겟팅된 SQL 생성 단계에 의해 해결됩니다. RAG 구성 요소는 의미론적으로 유사한 학습 예시를 통해 분해기 (decomposer)에 근거를 제공하며, 토폴로지 정제기 (Topology Refiner)는 실행 실패가 수정 가능한 SQL 오류가 아닌 결함이 있는 분해를 나타낼 때 추론 계획을 재구성합니다. DecoSearch는 DeepSeek 백본을 사용하여 BIRD에서 70.53%, Spider에서 88.31%의 실행 정확도를 달성하였으며, 이는 경쟁 방법들보다 10배 적은 토큰을 소비하면서도 모든 훈련이 필요 없는 (training-free) 베이스라인들을 능가하는 수치입니다. 또한 이 모델은 모델 불가지론적 (model-agnostic) 래퍼 (wrapper)로 작동하여, 파이프라인의 어떠한 수정 없이도 미세 조정된 (fine-tuned) SQL 생성 백본의 성능을 일관되게 향상시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

DecoSearch: Text-to-SQL을 위한 복잡도 인식 라우팅 및 계획 수준 수리 (Plan-Level Repair)

요약

핵심 포인트

댓글