본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 03. 11:04

CAPER: Text-to-SQL을 위한 절(Clause) 정렬 프로세스 감독

요약

CAPER은 Text-to-SQL 시스템의 성능 향상을 위해 SQL 추상 구문 트리(AST)를 활용한 절(Clause) 수준의 감독 프로세스를 제안합니다. 이를 통해 오류의 근본 원인을 파악하고 보상 모델링을 최적화하여 실행 정확도를 크게 개선했습니다.

핵심 포인트

  • SQL 절(Clause) 단위의 자동화된 감독 프로세스 CAPER 제안
  • AST 반사실적 개입을 통한 근본 원인 오류 위치 파악 가능
  • 경량 Clause-PRM인 CAPER-9B를 통한 정책 최적화 수행
  • BIRD 및 Spider 데이터셋에서 실행 정확도(EX) 대폭 향상

Text-to-SQL 시스템은 일반적으로 쿼리 수준의 실행 정확도(execution correctness)로 평가되지만, 이러한 최종 신호는 어떤 중간 SQL 결정이 성공 또는 실패를 유발했는지에 대한 가이드를 거의 제공하지 못합니다. 토큰 수준의 조밀한 감독(Token-level dense supervision) 또한 적합하지 않습니다. SQL 토큰은 완전한 의미적 결정(semantic decisions)과 일치하지 않으며, 실행 결과가 동일한 쿼리에 대해 불이익을 줄 수 있고, 대규모로 신뢰성 있게 라벨링하기 어렵기 때문입니다. 따라서 우리는 SQL 추상 구문 트리(Abstract Syntax Tree, AST)에 대한 반사실적 개입(counterfactual intervention)을 통해 절 수준(clause-level)의 감독을 자동으로 도출하는 CAPER을 제안합니다. 이를 통해 보상 모델링(reward modeling)을 위한 근본 원인 오류 위치 파악(root-cause error localization)이 가능해집니다. 생성된 데이터는 정책 최적화(policy optimization) 및 후보 검증(candidate verification)을 위해 절 경계 피드백을 제공하는 경량 Clause-PRM인 CAPER-9B를 학습시키는 데 사용됩니다. BIRD 및 Spider 데이터셋에 대한 실험 결과, 절 정렬 감독(clause-aligned supervision)은 실행 정확도를 향상시켜 GPT-5.4 대비 최대 15.3%의 상대적 EX 개선을 달성했을 뿐만 아니라, 미학습 실패 사례(held-out failures)에 대해 84.53%의 정확도와 90.60%의 MRR을 기록하며 실패 위치 파악 능력을 강화함을 보여주었습니다. 저희 프로젝트 페이지는 https://github.com/banrichard/RL-NL2SQL 에서 확인하실 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0