
Google Gemini-SQL2, BIRD 벤치마크에서 80.04% 기록하며 GPT-5.5를 7포인트 차로 앞서다
요약
Google Research의 Gemini-SQL2가 BIRD 벤치마크에서 80.04%의 정확도를 기록하며 GPT-5.5와 Claude Opus 4.6을 크게 앞질렀습니다. Gemini 3.1 Pro를 기반으로 한 이 시스템은 자연어를 실행 가능한 SQL 쿼리로 변환하는 능력이 탁월합니다.
핵심 포인트
- Gemini-SQL2, BIRD 벤치마크에서 80.04% 달성
- GPT-5.5-xhigh 및 Claude Opus 4.6 대비 압도적 성능 우위
- Gemini 3.1 Pro 기반의 텍스트-투-SQL 특화 시스템
- 기업용 데이터 에이전트 시장의 핵심 기술로 주목
Google의 Gemini-SQL2가 BIRD에서 80.04%를 기록하며, GPT-5.5를 7포인트, Claude Opus 4.6을 9포인트 차이로 앞질렀으나, 아직 공개 출시나 논문은 발표되지 않았습니다.
Google Research의 Gemini-SQL2는 BIRD 벤치마크(benchmark)에서 80.04%를 기록하며, OpenAI의 GPT-5.5-xhigh를 7%포인트 이상 앞섰습니다. Gemini 3.1 Pro를 기반으로 구축된 이 시스템은 자연어(natural language)를 실행 가능한 SQL 쿼리(queries)로 변환합니다.
주요 사실
- Gemini-SQL2는 BIRD 벤치마크에서 80.04%를 기록했습니다.
- OpenAI의 GPT-5.5-xhigh는 72.8%를 기록했습니다.
- Anthropic의 Claude Opus 4.6은 70.9%를 기록했습니다.
- Google의 Gemini 3.1 Pro 모델을 기반으로 구축되었습니다.
- 아직 공개 출시나 논문 발표는 발표되지 않았습니다.
Google의 블로그 게시물에 따르면, Gemini 3.1 Pro를 기반으로 구축된 텍스트-투-SQL (text-to-SQL) 시스템인 Google Research의 Gemini-SQL2는 BIRD 벤치마크에서 80.04%의 실행 정확도(execution accuracy)를 달성했습니다. 이는 OpenAI의 GPT-5.5-xhigh(72.8%)보다 약 7포인트 앞서고, Anthropic의 Claude Opus 4.6(70.9%)보다 9포인트 앞선 수치입니다. Databricks, AWS, Tencent, Alibaba의 모델들은 모두 이보다 뒤처져 있습니다.
BIRD 벤치마크는 모델이 자연어 질문을 실제 데이터베이스에서 올바르게 실행되는 SQL 쿼리로 얼마나 정확하게 변환하는지를 테스트합니다. Google Research는 데이터가 종종 계층화되어 있고 쿼리가 복잡한 비즈니스 로직(business logic)을 고려해야 하기 때문에 이 작업이 특히 어렵다고 언급합니다. 회사는 생성된 SQL 쿼리가 올바르게 보일 뿐만 아니라 성공적으로 실행된다고 밝혔습니다.
Google은 Gemini-SQL2의 공개 출시를 발표하지 않았으며 아직 연구 논문도 발표하지 않았습니다. 회사는 더 나은 SQL 이해 능력이 자사의 데이터 서비스 전반에 걸쳐 자연어 기능을 개선할 수 있다고 말하며, 이 기술이 결국 BigQuery나 다른 Google Cloud 데이터 도구에 적용될 수 있음을 암시했습니다.
이 격차는 에이전트 기반 코딩 (agentic coding) 경쟁에서 중요한 의미를 갖습니다. OpenAI의 Codex는 최근 주간 사용자 수가 연초 대비 400% 증가한 500만 명에 도달했으며, Anthropic의 Claude Code는 멀티 에이전트 워크플로우 (multi-agent workflows)를 추가해 왔습니다. SQL 생성은 기업용 데이터 에이전트 (enterprise data agents)의 핵심 역량입니다. 자연어로 운영 데이터베이스 (production databases)를 쿼리할 수 있는 능력은 OpenAI와 Anthropic 모두가 다듬기 위해 경쟁해 온 기능입니다. BIRD 벤치마크에서 보여준 Google의 선두는 만약 이 모델을 제품화한다면 우위를 점할 수 있음을 시사합니다.
벤치마크 격차 분석
BIRD에서의 7포인트 격차는 플래그십 모델 간의 일반적인 벤치마크 격차보다 큽니다. 참고로, Claude Opus 4.6은 SWE-bench Verified에서 80.9%를 기록했고, GPT-5.5-xhigh는 78.2%를 기록하여 그 격차가 3포인트 미만이었습니다. 이러한 SQL 격차는 범용 모델보다는 SQL 중심 데이터에 대한 특화된 미세 조정 (fine-tuning)을 포함했을 가능성이 높은 Google의 접근 방식이 구조화된 쿼리 작업에서 불균형적으로 큰 이득을 얻고 있음을 시사합니다.
Google은 Gemini-SQL2가 사고의 사슬 (chain-of-thought) 프롬프팅을 사용하는지, 데이터베이스 스키마에 대한 검색 증강 생성 (retrieval-augmented generation, RAG)을 사용하는지, 혹은 커스텀 미세 조정 레시피를 사용하는지 공개하지 않았습니다. 논문이 없다는 것은 기술적 세부 사항이 불투명함을 의미하며, 이는 벤치마크 성과 발표와 함께 연구를 공개하는 Google의 일반적인 패턴과는 대조적입니다.
이것이 Text-to-SQL 시장에 의미하는 바
이번 결과는 OpenAI와 Anthropic이 SQL 특화 성능을 개선해야 한다는 압박을 가합니다. 두 회사 모두 일반적인 코딩 벤치마크 (SWE-bench, Terminal-Bench)에 집중해 왔으나, SQL 생성은 데이터베이스 스키마, 조인 (join) 로직, 집계 함수 (aggregation functions)에 대한 이해를 요구하는 별개의 기술입니다. Python 코딩에서 뛰어난 모델이라 할지라도 여러 테이블과 윈도우 함수 (window functions)가 포함된 복잡한 SQL 쿼리에서는 여전히 어려움을 겪을 수 있습니다.
자연어 데이터 질의 (natural-language data querying)의 기업 도입은 정확도에 대한 우려로 인해 지체되어 왔습니다. 사용자들은 생성된 SQL의 아주 작은 오류만으로도 그럴듯해 보이는 오답을 만들어낼 수 있다고 보고합니다. BIRD 벤치마크에서 80%를 달성한 시스템이라 할지라도 여전히 5개 쿼리 중 1개에서는 실패하지만, 이는 범용 모델들의 70~73% 범위와 비교하면 실질적인 개선입니다.
주목해야 할 점
Google이 Gemini-SQL2의 아키텍처를 상세히 다룬 논문을 발표하거나, 해당 기능을 BigQuery의 자연어 인터페이스에 탑재하는지를 지켜봐야 합니다. 만약 60일 이내에 논문이 발표되지 않는다면, 해당 벤치마크 수치는 검증 불가능한 상태로 남게 됩니다. 이는 Google Research의 논문 발표 관행이 변화했음을 나타내는 패턴이 될 것입니다.
출처: the-decoder.com
원문 게시지: gentic.news
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기