arXiv논문2026. 06. 03. 11:04

CAPER: Text-to-SQL을 위한 절(Clause) 정렬 프로세스 감독

요약

CAPER은 Text-to-SQL 시스템의 성능 향상을 위해 SQL 추상 구문 트리(AST)를 활용한 절(Clause) 수준의 감독 프로세스를 제안합니다. 이를 통해 오류의 근본 원인을 파악하고 보상 모델링을 최적화하여 실행 정확도를 크게 개선했습니다.

핵심 포인트

SQL 절(Clause) 단위의 자동화된 감독 프로세스 CAPER 제안
AST 반사실적 개입을 통한 근본 원인 오류 위치 파악 가능
경량 Clause-PRM인 CAPER-9B를 통한 정책 최적화 수행
BIRD 및 Spider 데이터셋에서 실행 정확도(EX) 대폭 향상

Text-to-SQL 시스템은 일반적으로 쿼리 수준의 실행 정확도(execution correctness)로 평가되지만, 이러한 최종 신호는 어떤 중간 SQL 결정이 성공 또는 실패를 유발했는지에 대한 가이드를 거의 제공하지 못합니다. 토큰 수준의 조밀한 감독(Token-level dense supervision) 또한 적합하지 않습니다. SQL 토큰은 완전한 의미적 결정(semantic decisions)과 일치하지 않으며, 실행 결과가 동일한 쿼리에 대해 불이익을 줄 수 있고, 대규모로 신뢰성 있게 라벨링하기 어렵기 때문입니다. 따라서 우리는 SQL 추상 구문 트리(Abstract Syntax Tree, AST)에 대한 반사실적 개입(counterfactual intervention)을 통해 절 수준(clause-level)의 감독을 자동으로 도출하는 CAPER을 제안합니다. 이를 통해 보상 모델링(reward modeling)을 위한 근본 원인 오류 위치 파악(root-cause error localization)이 가능해집니다. 생성된 데이터는 정책 최적화(policy optimization) 및 후보 검증(candidate verification)을 위해 절 경계 피드백을 제공하는 경량 Clause-PRM인 CAPER-9B를 학습시키는 데 사용됩니다. BIRD 및 Spider 데이터셋에 대한 실험 결과, 절 정렬 감독(clause-aligned supervision)은 실행 정확도를 향상시켜 GPT-5.4 대비 최대 15.3%의 상대적 EX 개선을 달성했을 뿐만 아니라, 미학습 실패 사례(held-out failures)에 대해 84.53%의 정확도와 90.60%의 MRR을 기록하며 실패 위치 파악 능력을 강화함을 보여주었습니다. 저희 프로젝트 페이지는 https://github.com/banrichard/RL-NL2SQL 에서 확인하실 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

CAPER: Text-to-SQL을 위한 절(Clause) 정렬 프로세스 감독

요약

핵심 포인트

댓글