Data + AI Summit 2026 첫날 Keynote: Genie Ontology를 현장 슬라이드로 파헤치기

Data + AI Summit 2026의 첫날 Keynote를 현장에서 보고 왔습니다.

※ 수치·명칭은 슬라이드 및 공식 발표에 근거한 것이며, 저의 해석이나 감상은 「소감」으로 나누어 작성합니다.

이번에 가장 흥분했던 것은 Genie Ontology에 관한 이야기였습니다. 특히 후술할 OntoRank의 사고방식에는 보면서 저도 모르게 몸이 앞으로 기울 정도였습니다.

업데이트된 Genie

키노트에서는 Genie가 크게 업데이트되어, Databricks의 다양한 기능이나 데이터에서 사용할 수 있는 것으로 소개되었습니다. 발표는 다방면에 걸쳐 있었지만, 본 기사에서는 욕심내지 않고 그중에서도 시간을 할애하여 설명되었던 컨텍스트 층(context layer)인 Genie Ontology에 집중하여 쓰겠습니다.

AI 에이전트의 「컨텍스트 문제」

온톨로지(ontology) 이야기를 하기 전에, 이는 Genie에 국한되지 않고 AI 에이전트 전반에 적용되는 과제를 짚고 넘어가겠습니다. 에이전트는 「매출」이라는 단어 그 자체는 다룰 수 있어도, 그 단어가 자사에서 무엇을 가리키는지, 어떤 정의인지, 어느 테이블에 있으며 어떻게 결합하는지에 대한 문맥(context)을 가지고 있지 않습니다.

그래서 문맥을 좁히면 답은 빠르게 돌아오지만 내용이 어긋나고, 반대로 정확성을 기하기 위해 닥치는 대로 찾게 하면 시간과 비용이 늘어납니다. 결국 **정밀도와 비용의 트레이드오프 (trade-off)**에 도달하게 됩니다. 에이전트를 업무에서 신뢰하고 사용하려면 이 「문맥을 어떻게 부여할 것인가」를 풀어야 하며, 여기서 효과를 발휘하는 것이 온톨로지입니다.

애초에 「온톨로지」란 무엇인가

온톨로지 (ontology)는 원래 철학의 존재론, 「무엇이 존재하는가」를 다루는 분야의 용어입니다. 정보과학에서는 특정 업무 영역에 「무엇이 존재하고 (개념), 어떤 속성을 가지며, 서로 어떻게 관계하는가」를 기계가 추론에 사용할 수 있는 형태로 나타낸 「의미의 지도」를 가리킵니다.

DB 스키마(schema)가 「데이터의 그릇」을 정의하는 것에 반해, 온톨로지는 「그 그릇이 무엇을 의미하고 어떻게 연결되는가」를 가집니다. 예를 들어 로케이션이 기계를 설치한다, 거래는 기계에서 발생한다, 따라서 매출은 로케이션에 귀속된다와 같은 관계나 규칙까지 표현할 수 있다는 점이 용어집이나 스키마와의 차이점입니다. 이를 실제 데이터로 채워 점과 선으로 만든 것이 지식 그래프 (knowledge graph)에 해당합니다.

Genie Ontology의 구조

「How Genie Ontology works」 슬라이드에서는 동작이 4단계로 설명되어 있었습니다. 정의의 신뢰도를 판정하는 알고리즘에는 OntoRank라는 이름이 붙어 있습니다.

Extract & store Ontology Snippets— 기존 자산(테이블·쿼리·대시보드·파이프라인·연동 앱)에서 지식 스니펫을 추출하여 저장한다.

Determine authority with "OntoRank"— 동일한 개념에 여러 정의가 있을 때, 출처·저자의 권위·이용 빈도·인증 자산과의 결합도·신선도를 바탕으로 신뢰도를 판정한다. 권한 고려형 (permissions-aware).

Search at query time, applying permissions— 쿼리 시점에 검색하며, 각 소스의 ACL이나 Unity Catalog의 권한을 적용한다.

Inject relevant context into the agent loop— 관련 컨텍스트를 에이전트의 추론 루프에 주입한다.

입력은 두 계통으로, 사람이 정의하는 Modeled Semantics (Unity Catalog의 세만틱스)와 연동 앱 등으로부터 학습하는 Learned Knowledge입니다. 이것들을 OntoRank가 하나로 묶어 위의 Genie 각 제품에 공급하는 삼층 구조입니다.

Databricks의 공식 블로그에서는 이 구조를 「자동으로 구축·지속 업데이트되는 컨텍스트 층」이라고 설명했습니다.

공개된 벤치마크

키노트에서는 정밀도와 실행 시간의 벤치마크가 제시되었습니다. 각주에 따르면, production data system 상의 실무 질문 샘플을 통한 내부 평가에서, 비교 대상인 코딩 에이전트는 Databricks DBSQL MCP를 탑재하고 있습니다.

에이전트는 정확성을 추구할수록 시간과 비용이 늘어나며, 정밀도(Accuracy)와 속도(Speed)는 트레이드오프(Trade-off) 관계가 되기 쉽습니다. 하나를 세우면 다른 하나가 희생됩니다. 그럼에도 불구하고, 이 벤치마크는 '정확하면서도 빠른' 모습을 동시에 보여주었습니다. 슬라이드의 제목이 superior accuracy and latency (정밀도와 레이턴시(Latency) 모두에서 우수함)라고 단언하고 있는 것이 바로 그 주장의 핵심입니다.

마치며: 이번 업데이트에서 가장 기대되는 점

여기서부터는 저의 소감입니다.

이번 Genie 업데이트에서 가장 기대되는 점은 새로운 기능의 개수가 아니라, Genie Ontology, 그중에서도 OntoRank였습니다.

의미를 자동으로 추출하다 보면, 같은 "매출"이라 하더라도 여러 정의가 나타납니다. "어느 것이 정답인가"를 결정하는 것은 추출의 문제라기보다 합의의 문제이며, 인증이나 리뷰와 같은 수작업이 계속 남아 있었습니다. OntoRank는 그 판단을 이용 빈도, 인증 자산과의 결합도, 신선도와 같이 관측 가능한 시그널로 대체해 나갑니다. 이것이 잘 돌아간다면 정의를 판정하는 책임을 사람이 짊어져야 한다는 전제가 무너지고, 시맨틱 레이어(Semantic Layer)의 정비는 압도적으로 쉬워질 것입니다. 또한 잘 정돈된 의미 계층은 그대로 에이전트의 토대가 되므로 AI와의 친화성도 한 단계 높아질 것입니다.

그렇다면 정비가 쉬워지면 무엇이 좋은 걸까요? 제가 가장 먼저 느낀 것은 데이터 활용 사이클이 빠르게 회전한다는 것이었습니다. 질문 → 데이터 적용 → 답변 → 다음 질문이라는 루프 도중에 정의를 맞추느라 멈춰 서는 일이 줄어들고, 게다가 OntoRank는 사용 방식에 따라 권위(Authority)를 업데이트하므로, 사이클을 돌리면 돌릴수록 온톨로지(Ontology)가 성장하여 다음 단계는 더욱 빨라집니다. 데이터 활용이 "매번 수행하는 프로젝트"에서 "계속해서 돌아가는 운동"에 가까워지는 모습, 그 그림이 명확히 보인 것이 가장 큰 수확이었습니다.