AI 시대의 데이터베이스, 무엇이 변하는가?

Qiita Tech Festa의 주제로 「AI 시대의 데이터베이스, 무엇이 변하는가?」라는 것을 보았습니다.

저는 일단 전공이 DB입니다만, AI(LLM)의 융성이 DB에 어떤 영향을 미칠지에 대해서는 전혀 생각해 본 적이 없었습니다.

하지만 듣고 보니 확실히 무언가 있을 것 같다는 생각이 들어서, 기사를 써 보았습니다.

기사 내용으로는 우선 다음을 정리해 나가겠습니다.

지금까지 시스템이 데이터 분석 관점에서 어떻게 변화해 왔는가
그 변화가 DB(데이터 분석 기반)에 어떤 영향을 주어 왔는가

마지막으로 AI(LLM)가 DB에 어떤 영향을 미칠지 고찰해 보겠습니다.

솔직히 주관과 불분명한 기억을 바탕으로 휘갈겨 쓰고 있어서 여러모로 자신은 없습니다만, 뭐, 한 명의 DB 전문가가 이런 식으로 생각하고 있구나 정도로 봐주시면 감사하겠습니다.

먼저 지금까지의 변천사를 대략 정리하면 다음과 같을 것이라 생각합니다.

다음 장부터는 각각의 내용을 조금 더 자세히 설명하겠습니다.

시대	데이터 이용 방법	데이터 기반에 대한 요구사항	데이터 기반
RDB (1980~)	업무 시스템의 백엔드. 일보·월보 등의 고정적 집계	정확한 데이터, 정합성이 맞는 데이터	RDB
OLAP/BI (1995~)	제품별, 월별, 지역별 등 분석 관점을 동적으로 전환하며 분석	분석 관점으로 정리된 데이터, 분석 관점을 고속으로 전환하는 메커니즘	DWH·OLAP
빅데이터 (2008~)	다종·다량의 데이터를 모아서 분석. 쉽게 떠올릴 수 없는 관점에서의 지견 발굴	다량의 데이터를 고속으로 입출력. 로그 파일 등 정규화되지 않은 데이터도 축적	Hadoop·NoSQL·데이터 레이크
머신러닝 (2015~)	데이터를 학습시켜 모델을 생성. 특히 예측에 활용. 이미지나 음성도 분석	특히 딥러닝 (Deep Learning)을 전제로 한 대량의 학습 데이터, 이미지·음성 축적	데이터 레이크 (이미지나 음성이 추가됨)
LLM (2022~)	자연어로 데이터나 문서를 횡단적으로 분석. 지식을 검색·요약·추론하여 활용	의미 기반으로 지식을 검색. 문장(텍스트 데이터)의 상대적 중요도 증가	벡터 DB (RAG)

데이터 기반이라고 하면 우선 RDB입니다.

RDB는 정규화나 ACID 특성을 통해 데이터의 정합성을 보장하기 위한 메커니즘·생각 방식으로, 업무 시스템의 백엔드로서 현재까지 데파크토 스탠다드(De facto standard)가 되고 있습니다.

쿼리를 쓰지 않아도 간단히 분석할 수 있도록 사전에 이것저것 준비해 둔다는 생각.

RDB의 데이터를 변환하여 가지고 있는 이미지.

참고로 OLAP라고 하면 최근에는 컬럼 스토어(Columnar Store, 열 지향) DB로 구현되는 경우가 많지만, 당초에는 디멘셔널 DB(Dimensional DB, 다차원 DB)라는 생각이 베이스였습니다.

그런데 디멘셔널 DB에 대해서는 최근 거의 보이지 않는 인상입니다.

역시 사전에 모든 것을 정리해 두어야 한다는 생각이 버거웠던 것 같습니다.

어떤 관점으로 분석될지를 사전에 완벽히 예측하는 것이란 불가능하니까요...

2000년대 후반이 되면 「분석하고 싶은 데이터」 자체가 크게 변합니다.

그전까지 분석 대상이라고 하면 RDB에 저장된 업무 데이터가 중심이었습니다.

하지만,

Web 액세스 로그
SNS 게시물
센서 데이터
GPS 정보

등 「RDB에 넣기 어려운 데이터」가 폭발적으로 늘어납니다.

게다가 데이터량도 GB가 아니라 TB, PB의 세계가 되어, 기존의 RDB만으로는 처리가 불가능해졌습니다.

그래서 등장한 것이 Hadoop이나 NoSQL 같은 기술입니다.

여기서 중요했던 것은 「분석 기법」이 변했다기보다 「데이터에 대한 생각」이 변했다는 점이라고 생각합니다.

그전까지는

필요한 데이터만을 분석하기 쉬운 형태로 정리하여 저장한다

라는 발상이었습니다.

반면 빅데이터 시대가 되면

일단 전부 저장해 두자

라는 발상으로 바뀝니다.

이것이 데이터 레이크(Data Lake)라는 개념입니다.

정규화되지 않은 로그 파일이든, JSON이든, CSV든, 이미지든 일단 저장해 둡니다.

그리고 나중에 분석 방법이 결정되면 가공하면 됩니다.

「장래에 어떤 분석을 할지 모르니까 로우 데이터(Raw data)를 남겨두자」라는 생각이죠.

개인적으로는 이 발상의 전환이 상당히 컸다고 생각합니다.

2010년대 중반이 되면 딥러닝 (Deep Learning) 붐이 찾아옵니다.

「기계학습 (Machine Learning)」이라는 기술 자체는 훨씬 전부터 있었지만, 세상의 분위기가 바뀐 것은 역시 딥러닝 (Deep Learning)이 이미지 인식 등에서 큰 성과를 거둔 이후일 것입니다.

여기서 변한 것은,

데이터를 분석한다

에서

데이터를 학습시킨다

로의 변화입니다.

지금까지는 인간이 데이터를 보고 지견을 얻었습니다.

예를 들어,

이 상품의 매출이 늘고 있다
이 시간대에는 접속이 많다
이 조합의 상품이 잘 팔린다

와 같은 것들을 인간이 분석했습니다.

반면, 기계학습 (Machine Learning)에서는 대량의 데이터로부터 AI 스스로가 모델을 만듭니다.

그 모델을 사용하여,

고장 예측
수요 예측
부정 탐지
이미지 인식
음성 인식

등을 수행하게 되었습니다.

여기서 데이터 기반 (Data Infrastructure)에 요구된 것은 「학습 데이터를 축적할 수 있는 것」입니다.

특히 딥러닝 (Deep Learning)에서는 이미지나 음성과 같은 비구조화 데이터 (Unstructured Data)가 중요해집니다.

RDB에서는 다루기 어려웠던 데이터도 데이터 레이크 (Data Lake)에는 그대로 저장할 수 있습니다.

즉, 빅데이터 시대에 만들어진 데이터 레이크가 그대로 AI의 학습 기반이 되었다고 생각하면 이해하기 쉬울 것입니다.

데이터베이스 자체가 극적으로 변했다기보다는,

데이터 레이크의 용도가 「분석용」에서 「AI 학습용」으로 확장되었다

라는 인상입니다.

그리고 현재는 LLM (대규모 언어 모델)의 시대입니다.

여기서 흥미로운 점은 기계학습 시대와는 방향성이 조금 다르다는 것입니다.

기계학습 (Machine Learning)에서는

데이터로부터 예측 모델을 만드는 것

이 주요 목적이었습니다.

반면, LLM (Large Language Model)에서는

데이터나 문서를 이해하고, 인간이 사용하기 쉬운 형태로 활용하는 것

이 목적이 됩니다.

예를 들어,

「지난달 매출이 떨어진 이유를 알려줘」

라고 질문하면,

매출 데이터
사내 매뉴얼
장애 보고서
과거 문의 내역

등을 횡단적으로 검색하여 자연어로 정리해 답변해 줍니다.

기존이라면,

SQL을 작성한다
BI 툴로 집계한다
매뉴얼을 읽는다

와 같은 작업이 필요했지만, 그것을 LLM이 대신해 주는 것입니다.

여기서 중요해진 것이 벡터 데이터베이스 (Vector Database)입니다.

RDB는 「완전 일치」나 「수치 비교」는 잘하지만,

「이 문장과 의미가 가까운 것을 찾는다」

라는 검색은 그리 잘하지 못합니다.

그래서 문서를 벡터화하여 「의미의 유사성」으로 검색하는 벡터 DB가 등장했습니다.

그리고 벡터 DB에서 관련 정보를 취득하여 이를 LLM에 전달하고 답변을 생성하는 메커니즘이 RAG (검색 증강 생성, Retrieval-Augmented Generation)입니다.

즉, LLM 시대의 데이터 기반에서는

「올바른 데이터를 저장한다」
「대량의 데이터를 저장한다」

뿐만 아니라,

「AI가 필요한 지식을 꺼내기 쉬운 형태로 저장한다」

는 것이 중요해졌다고 할 수 있습니다.

Insights

AI 시대의 데이터베이스, 무엇이 변하는가?

요약

핵심 포인트

댓글

Blue Origin, 2026년 말 비행을 목표로 폭발 사고 이후 발사대 재설계로 전환

Windows Defender 'BlueHammer' 취약점이 악성코드 캠페인의 일부로 악용 중 — CISA, 4월 14일 패치 출시에도

Linux 7.2 주요 기능: Cache Aware Scheduling, USB4STREAM, AMD ISP4, AMDGPU HDMI 2.1

2x4060에서 DFlash 작동 확인 - Tensor+MTP보다 느림

Windows Defender 'BlueHammer' 취약점이 악성코드 캠페인의 일부로 악용 중 — CISA, 4월 14일 패치 출시에도

Linux 7.2 주요 기능: Cache Aware Scheduling, USB4STREAM, AMD ISP4, AMDGPU HDMI 2.1

2x4060에서 DFlash 작동 확인 - Tensor+MTP보다 느림