Text-to-SQL은 여전히 취약합니다. Snowflake의 Cortex Sense는 새로운 접근 방식입니다.

자연어에서 SQL로의 변환(Natural language to SQL)은 기업용 AI의 마지막 단계에서 항상 취약한 부분이었습니다. Snowflake의 새로운 Cortex Sense는 다른 접근 방식을 제안합니다. 사용자가 수동으로 시맨틱 레이어 (semantic layer)를 정의하는 대신, 분석가와 도구들이 이미 데이터를 어떻게 쿼리하는지 관찰함으로써 비즈니스의 작동 모델을 자동으로 구축합니다. 이는 병목 현상을 수동 큐레이션에서 자동 추론 (automated inference)으로 이동시켜, 컨텍스트 (context) 문제를 정면으로 다룹니다.

정확도의 하한선

Text-to-SQL의 핵심 문제는 구문 (syntax)이 아니라 컨텍스트 (context)입니다. 대규모 언어 모델 (Large language models)은 SQL을 작성하는 데 완벽하게 능숙합니다. 그들에게 부족한 것은 데이터베이스 스키마 (database schema)에 인코딩된 비즈니스에 대한 깊고 암묵적인 지식입니다. 예를 들어, 어떤 user_id가 어떤 account_id와 조인되는지,

단순한 쿼리에서 문맥적 (contextual) 쿼리로

출력 결과의 차이는 상당합니다. 단순한 (naive) LLM은 구문적으로는 올바른 쿼리를 생성할 수 있지만, 귀하의 비즈니스 특유의 관례를 이해하지 못해 실패할 수 있습니다. Cortex Sense에 의해 근거를 확보한 (grounded) 에이전트는 모호한 비즈니스 언어를 정밀한 SQL로 변환할 수 있습니다.

"북동부 지역의 상위 10명 고객을 보여줘"와 같은 요청을 가정해 보겠습니다.

단순한 모델은 겉보기에는 맞지만 귀하의 스키마 (schema) 상에서는 실패하는 결과를 생성할 수 있습니다.

-- 단순한 (Naive) LLM의 시도
SELECT
  customer_name,
...

Cortex Sense로부터 추출된 문맥 (context)을 가진 에이전트는 이전에 유사한 쿼리를 본 적이 있기 때문에 필요한 조인 (join) 및 필터 로직 (filter logic)을 이해합니다.

-- Cortex Sense 문맥을 가진 에이전트
SELECT
  c.customer_name,
...

확신에 찬 오답의 위험성

이러한 자동화된 접근 방식에는 위험이 따릅니다. 소스 자료인 과거의 쿼리 및 BI 대시보드에는 오류, 오래된 로직, 또는 비효율적인 패턴이 포함되어 있을 수 있습니다. 이러한 문맥을 자동으로 추출하는 시스템은 인간의 감독 없이 잘못된 습관을 학습하고 전파하며, 확신에 찬 오답 (confidently wrong)을 낼 잠재적 위험이 있습니다.

이것이 근본적인 트레이드오프 (trade-off)입니다. 시맨틱 레이어 (semantic layer)를 구축하는 느리고 수동적인 작업 대신 자동화의 속도와 규모를 선택하는 대신, 자동화된 시스템이 소스 데이터의 결함을 상속받을 위험도 함께 수용하게 됩니다. 이를 구현하는 모든 팀에게 검증 단계를 구축하고 인간 참여형 (human-in-the-loop) 검토 프로세스를 마련하는 것은 매우 중요할 것입니다.

이는 무차별 대입식 (brute-force) LLM 지능에서 벗어나, 조직의 데이터 문화라는 실제 현실에 AI의 근거를 두는 시스템으로 나아가는 움직임입니다. 개발자들에게 이는 에이전트에게 가장 가치 있는 문맥이 프롬프트 (prompt)에 있는 것이 아니라, 이미 보유하고 있는 수년간의 쿼리 로그 (query logs)에 있다는 점을 상기시켜 줍니다. 자동화된 시맨틱 모델링 (semantic modeling)이 마침내 Text-to-SQL 문제를 대규모로 해결할 수 있을지 지켜볼 가치가 있는 접근 방식입니다.

출처

Cortex Sense for Enterprise AI Agents

Insights

Text-to-SQL은 여전히 취약합니다. Snowflake의 Cortex Sense는 새로운 접근 방식입니다.

요약

핵심 포인트

정확도의 하한선

단순한 쿼리에서 문맥적 (contextual) 쿼리로

확신에 찬 오답의 위험성

출처

댓글

x402 결제 계층의 상태 동기화 격차와 그로 인한 네 가지 에이전트 결제 공격

Claude Code가 확인 답변을 60초 기다린 뒤 멋대로 진행한다 — 삭제한 파일이 복원되고 코드가 수정되는 사고와 그 방지법

ESMA가 37개의 새로운 암호화폐 기업을 추가함에 따라 Standard Chartered가 MiCA 라이선스를 확보하다

TotalEnergies, 아시아 구매자들에게 수백만 배럴의 이라크산 원유 제안

Claude Code가 확인 답변을 60초 기다린 뒤 멋대로 진행한다 — 삭제한 파일이 복원되고 코드가 수정되는 사고와 그 방지법

ESMA가 37개의 새로운 암호화폐 기업을 추가함에 따라 Standard Chartered가 MiCA 라이선스를 확보하다

TotalEnergies, 아시아 구매자들에게 수백만 배럴의 이라크산 원유 제안