arXiv논문2026. 06. 17. 12:57

대규모 언어 모델을 이용한 천문 데이터베이스 질의: ALeRCE text-to-SQL 시스템

요약

LLM의 인컨텍스트 학습을 활용하여 천문 데이터베이스인 ALeRCE에 적용 가능한 text-to-SQL 시스템을 제안합니다. 스키마 연결, 프롬프트 분해, 자기 수정 모듈을 포함한 단계별 프레임워크를 통해 자연어를 SQL 쿼리로 변환하는 성능을 평가했습니다.

핵심 포인트

스키마 연결 및 자기 수정 모듈을 포함한 단계별 생성 프레임워크 제안
직접 추론 방식보다 제안된 프레임워크가 일관되게 우수한 성능을 보임
자기 수정 모듈이 SQL 실행 오류를 효과적으로 감소시킴
Claude Opus 4.6, Gemini 시리즈, GPT-5.2-Codex가 높은 성능을 기록

우리는 인컨텍스트 학습 (in-context learning)을 사용하여 대규모 언어 모델 (LLMs) 기반의 text-to-SQL (구조화 질의 언어 (structured query language)) 시스템을 개발하고, 이를 ALeRCE (Automatic Learning for the Rapid Classification of Events) 천문 데이터베이스에 적용합니다. ALeRCE는 Zwicky Transient Facility 및 Vera C. Rubin Observatory를 위한 커뮤니티 브로커입니다. 이 시스템은 사용자가 자연어 (NL)로 데이터베이스를 질의할 수 있게 하며, 실행 가능한 SQL 쿼리를 생성합니다. 시스템을 개발하고 평가하기 위해, 우리는 110개의 NL/SQL 쌍으로 구성된 데이터셋을 구축했습니다. 우리는 스키마 연결 (schema linking), 쿼리 분류 (query classification), 프롬프트 분해 (prompt decomposition), 그리고 자기 수정 (self-correction)의 네 가지 모듈로 구성된 단계별 생성 프레임워크를 제안합니다. 13개의 LLM 성능을 인컨텍스트 학습 및 프롬프트 엔지니어링 (prompt engineering) 기술을 사용하여 평가했습니다. Text-to-SQL 성능은 행 식별자 (row identifiers, 예: 객체 식별자) 및 열 식별자 (column identifiers, 즉 열 이름)에 대한 완전 일치 (perfect-match (PM)) 비율을 사용하여 평가됩니다. 제안된 단계별 프레임워크는 직접 추론 (direct-inference) 베이스라인보다 일관되게 우수한 성능을 보였으며, 자기 수정 모듈은 실행 오류를 일관되게 줄여줍니다. Claude Opus 4.6의 경우, 행 (열) 식별자에 대한 PM 성능은 단순한 쿼리에 대해 0.97 (0.94)로 높았으나, 쿼리 복잡도가 증가함에 따라 중간 난이도 쿼리에서는 0.44 (0.72), 어려운 쿼리에서는 0.59 (0.49)로 감소했습니다. 평가된 13개 모델 중 text-to-SQL 작업에서 가장 성능이 뛰어난 LLM은 Claude Opus 4.6, Gemini 2.5 Pro, Gemini 3 Flash, 그리고 GPT-5.2-Codex입니다.

AI 자동 생성 콘텐츠

원문 바로가기

대규모 언어 모델을 이용한 천문 데이터베이스 질의: ALeRCE text-to-SQL 시스템

요약

핵심 포인트

댓글