각 단계가 중요하다: 도구 통합 Text-to-SQL 의 단계 수준 크레딧 할당

도구 통합 Text-to-SQL 파싱은 SQL 생성을 도구 실행과 교차하는 순차적 의사결정 과정으로 재정의하며 유망한 패러다임으로 부상했습니다. 그러나 기존 강화학습 접근법은 거친 결과물 감독에 의존하여 근본적인 크레딧 할당 문제를 야기합니다: 모델은 정답을 도출하는 어떤 궤적에도 동일한 보상을 받으며, 중간 단계가 불필요하거나 비효율적이거나 오류를 포함하더라도 마찬가지입니다. 따라서 모델은 저효율적 추론 공간을 탐색하도록 장려되어 효율성과 일반화가 제한됩니다. 이 문제를 해결하기 위해 우리는 도구 증강 Text-to-SQL 의 단계 수준 크레딧 할당을 위한 새로운 프레임워크인 FineStep 을 제안합니다. 먼저, 결과물 감독의 신호 희소성을 완화하기 위해 독립적인 과정 보상을 가진 보상 설계를 소개합니다. 다음으로, 각 추론 단계의 가치를 정확하게 정량화하는 단계 수준 크레딧 할당 메커니즘을 제시합니다. 마지막으로, 단계 수준의 장점을 기반으로 한 정책 최적화 방법을 개발하여 효율적인 업데이트를 수행합니다. BIRD 벤치마크에서의 광범위한 실험은 FineStep 이 최상의 성능을 달성하고 불필요한 도구 상호작용을 줄이며 4B 규모에서 GRPO 대비 평균 EX 가 3.25% 향상됨을 보여줍니다.

Insights

각 단계가 중요하다: 도구 통합 Text-to-SQL 의 단계 수준 크레딧 할당

요약

핵심 포인트

댓글

AI 에이전트를 실행하는 데 실제로 드는 비용은 얼마인가?

GitHub, Issues를 위한 에이전트 자동화 제어 기능 출시

D200X를 위한 Vibe Deck — Ulanzi D200X를 AI 코딩 에이전트용 커맨드 데크로 변신시키기

Windowed-MTP: 백만 토큰 컨텍스트에서 Full-Context Draft-KV 비용 제거하기

AI 에이전트를 실행하는 데 실제로 드는 비용은 얼마인가?

GitHub, Issues를 위한 에이전트 자동화 제어 기능 출시

D200X를 위한 Vibe Deck — Ulanzi D200X를 AI 코딩 에이전트용 커맨드 데크로 변신시키기

Windowed-MTP: 백만 토큰 컨텍스트에서 Full-Context Draft-KV 비용 제거하기