FINER-SQL: 텍스트-SQL 생성을 위한 소규모 언어 모델 성능 향상
요약
본 논문은 대규모 언어 모델(LLM)의 높은 비용과 지연 시간 문제를 해결하기 위해 소규모 언어 모델(SLM)을 활용한 텍스트-SQL 생성 방법을 제안합니다. 핵심 프레임워크인 FINER-SQL은 그룹 상대 정책 최적화(Group Relative Policy Optimization)를 기반으로 하며, 기존의 희소 이진 보상 대신 '메모리 보상'과 '원자 보상'이라는 두 가지 혁신적인 피드백 메커니즘을 도입합니다. 이를 통해 SLM이 잘못된 SQL에 대해서도 지속적이고 해석 가능한 학습 신호를 받아 안정적으로 성능을 향상시키며, BIRD 및 Spider 벤치마크에서 대형 LLM 대비 높은 효율성과 정확도를 입증했습니다.
핵심 포인트
- FINER-SQL은 LLM의 비용/지연 시간 문제를 해결하는 SLM 기반 텍스트-SQL 생성 프레임워크이다.
- 기존의 이진(0/1) 보상 대신, '메모리 보상'과 '원자 보상'을 도입하여 잘못된 SQL에 대한 지속적이고 미세한 피드백을 제공한다.
- 이 접근법은 이산적인 정확도를 연속적인 학습 신호로 변환하여 안정적인 크리티크 프리 최적화를 가능하게 한다.
- BIRD 및 Spider 벤치마크에서, FINER-SQL은 대형 LLM 대비 높은 실행 정확도와 현저히 낮은 추론 지연 시간을 달성했다.
대규모 언어 모델 (LLM) 은 텍스트-SQL 생성 분야에서 중요한 발전을 주도했습니다. 그러나 이러한 모델은 높은 계산 비용, 긴 지연 시간 (latency), 그리고 데이터 프라이버시 우려로 인해 많은 실제 응용 프로그램에서 실용적이지 못합니다. 자연스러운 대안으로 소규모 언어 모델 (SLM) 을 사용하는 것이 있으며, 이는 효율적이고 사적인 온프레미스 배포를 가능하게 합니다. 그러나 SLM 은 종종 약한 추론 능력과 낮은 지시어 수행 능력을 겪습니다. 희소 이진 보상 (0/1) 을 기반으로 한 기존의 강화 학습 방법은 생성된 SQL 이 잘못되었을 때 거의 학습 신호를 제공하지 못해 불안정하거나 붕괴된 훈련을 유발합니다. 이러한 문제를 극복하기 위해, 우리는 SLM 을 미세한 실행 피드백을 통해 향상시키는 확장 가능하고 재사용 가능한 강화 학습 프레임워크인 FINER-SQL 을 제안했습니다. FINER-SQL 은 그룹 상대 정책 최적화 (Group Relative Policy Optimization) 를 기반으로 하며, 희소 감시를 밀도 높고 해석 가능한 보상으로 대체하여 잘못된 SQL 도 지속적인 피드백을 제공합니다. 이는 두 가지 핵심 보상 함수를 도입합니다: 1) 메모리 보상 (memory reward): 추론과 검증된 추적 (verified traces) 을 정렬하여 의미적 안정성을 달성하고, 2) 원자 보상 (atomic reward): 연산 수준의 중첩을 측정하여 구조적으로 올바르지만 불완전한 SQL 에 대해 부분적인 점수를 부여합니다. 이 접근법은 이산적 정확도를 연속적인 학습으로 변환하여 안정적인 크리티크 프리 최적화를 가능하게 합니다. BIRD 와 Spider 벤치마크에서의 실험 결과, FINER-SQL 은 3B 모델로 최대 67.73% 및 85%의 실행 정확도를 달성하며, 추론 지연 시간을 5.57~s/sample 로 줄였습니다. 이는 훨씬 더 큰 LLM 과 비교하여 비용 효율적이고 프라이버시 보호를 유지하는 고성능 텍스트-SQL 생성 경로를 보여줍니다. 우리의 코드는 https://github.com/thanhdath/finer-sql 에서 이용 가능합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기