arXiv논문2026. 06. 02. 10:15

검색 학습하기: Text-to-SQL 에이전트를 위한 이중 수준 장기 메모리

요약

Text-to-SQL 에이전트의 성능 향상을 위해 에피소드와 턴 수준의 메모리를 결합한 MERIT 프레임워크를 제안합니다. 강화학습과 프로세스 보상 모델을 활용하여 상호작용 단계에 최적화된 메모리 검색을 수행합니다.

핵심 포인트

에피소드 및 턴 수준의 이중 메모리 구조 제안
강화학습 기반의 동적 다중 지평 메모리 검색
프로세스 보상 모델을 통한 효율적인 턴 수준 학습
BIRD-Interact 및 Spider2-Snow 벤치마크 성능 입증

대화형 Text-to-SQL 에이전트는 스키마 탐색(schema exploration), 쿼리 실행(query execution), 피드백 해석(feedback interpretation), 그리고 의사결정 수정(decision revision)을 포함하는 다회차 상호작용(multi-turn interactions)을 통해 데이터베이스 작업을 해결합니다. 장기 메모리(Long-term memory)는 에이전트가 과거의 경험을 재사용하는 데 도움을 주지만, 기존의 검색(retrieval) 방법들은 여전히 한계가 있습니다. 정적 방법(Static methods)은 다운스트림 유용성(downstream utility)을 최적화하지 못하는 고정된 유사도 휴리스틱(similarity heuristics)에 의존하는 반면, 동적 방법(dynamic methods)은 종종 희소한 최종 결과(sparse final outcomes)로부터 학습하며 단일 의사결정 지평(single decision horizon)에서 메모리를 검색합니다. 이는 상호작용 단계에 따라 메모리의 유용성이 변할 때 불충분한데, 초기 계획(initial planning)에 유용한 메모리가 상태 조건부 실행(state-conditioned execution)을 위해 필요한 메모리와 다를 수 있기 때문입니다. 우리는 동적 다중 지평 메모리 검색 프레임워크인 MERIT을 제안합니다. MERIT은 전역적 전략 가이드(global strategic guidance)를 위한 에피소드 수준(episode-level) 메모리와 지역적 의사결정 지원(local decision support)을 위한 턴 수준(turn-level) 메모리를 유지합니다. 두 수준 모두 강화학습 (RL)으로 최적화된 학습된 검색 정책(learned retrieval policies)을 사용합니다. 제한된 중간 감독(intermediate supervision)에도 불구하고 턴 수준의 검색을 학습하기 위해, MERIT은 경량 프로세스 보상 모델(Process Reward Model)을 사용하여 지역 메모리 선택을 위한 조밀한 프록시 보상(dense proxy rewards)을 제공합니다. BIRD-Interact에서의 실험 결과, MERIT은 평균 상호작용 턴 수를 줄이면서도 성공률 측면에서 메모리 없음(no-memory), 정적 검색(static-retrieval), 동적 검색(dynamic-retrieval) 베이스라인보다 우수한 성능을 보였습니다. Spider2-Snow에 대한 전이(Transfer) 결과는 벤치마크별 튜닝 없이도 긍정적인 교차 벤치마크 전이(cross-benchmark transfer)를 보여줍니다. 이러한 결과는 다중 지평 검색(multi-horizon retrieval)이 대화형 Text-to-SQL 에이전트의 경험 재사용을 향상시킨다는 것을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

검색 학습하기: Text-to-SQL 에이전트를 위한 이중 수준 장기 메모리

요약

핵심 포인트

댓글