FAISS 및 PostgreSQL을 활용한 벡터 데이터베이스 구축

🚀 기술 브리핑: 이 튜토리얼은 Gate of AI의 Agentic Workflows 심층 분석 시리즈의 일부입니다. 전체 기술 분석, 대화형 코드 샌드박스 및 네이티브 아랍어 번역을 확인하려면 여기에서 원문 기사를 방문하세요.

<span>Tutorial</span>
<span>Advanced</span>
<span>⏱ 60 min read</span>
...

AI 기반 애플리케이션을 위해 최신 FAISS 및 PostgreSQL 버전을 사용하여 고성능 벡터 데이터베이스 (Vector Database)를 구축하는 방법을 배우고, 이를 통해 효율적인 유사도 검색 (Similarity Search)을 가능하게 하며 AI 워크플로우 (Workflows)를 강화합니다.

사전 요구 사항 (Prerequisites)

cuVS 확장이 포함된 FAISS v1.14.0
pgvector v0.9.0이 포함된 PostgreSQL 18
AI 및 벡터 데이터베이스 (Vector Databases)에 대한 기본 이해
Python 3.10 이상
GPU 가속을 위한 CUDA 12.8
해당되는 경우 데이터 소스에 대한 API 키

우리가 구축할 것 (What We're Building)

이 튜토리얼에서는 빠르고 효율적인 벡터 검색 (Vector Search) 기능이 필요한 AI 애플리케이션을 지원할 수 있는 강력한 벡터 데이터베이스 시스템을 구축할 것입니다. 벡터 유사도 검색 (Vector Similarity Search)을 위한 FAISS와 관계형 데이터 관리 (Relational Data Management)를 위한 pgvector 기반의 PostgreSQL을 통합함으로써, 시스템은 고차원 데이터 (High-dimensional Data)를 효율적으로 처리하고 의미론적 검색 (Semantic Searches)을 수행할 것입니다. 이 설정은 추천 엔진 (Recommendation Engines), 의미론적 검색 엔진 (Semantic Search Engines) 및 대규모 데이터 세트에서 유사한 항목을 빠르게 검색해야 하는 기타 AI 기반 솔루션과 같은 애플리케이션에 특히 유용합니다.

최종 결과물은 성능 향상을 위해 GPU 가속 (GPU Acceleration)을 활용하여 수백만 개의 벡터를 효율적으로 인덱싱하고 검색할 수 있는 시스템이 될 것입니다. 이를 통해 AI 모델은 지연 시간 (Latency)을 줄이고 정확도를 높이면서 유사도 매칭 (Similarity Matching) 및 의미론적 검색 (Semantic Retrieval)과 같은 작업을 수행할 수 있습니다.

Saudi Vision 2030 및 UAE 국가 AI 전략 (UAE National Strategy for AI)과 같은 지역적 이니셔티브를 통합함으로써, 이 설정은 GCC 지역의 AI 인프라를 크게 강화하여 현지 기업과 정부 프로젝트가 디지털 전환 (Digital Transformation) 목표를 달성할 수 있도록 지원할 수 있습니다.

설정 및 설치 (Setup and Installation)

CPU와 GPU 모두에서 벡터 연산을 지원하기 위해 필요한 라이브러리를 설치하고 환경을 설정해야 합니다. 여기에는 GPU 지원 기능이 포함된 FAISS 설정, pgvector 확장이 포함된 PostgreSQL 설정, 그리고 데이터 처리 및 API 상호작용을 위한 필수 Python 라이브러리 설치가 포함됩니다.

pip install faiss-gpu==1.14.0
pip install psycopg2-binary
pip install numpy
...

또한, PostgreSQL이 설치되어 있고 pgvector 확장이 활성화되어 있는지 확인하십시오. PostgreSQL 데이터베이스에 확장을 설치하려면 관리자 권한이 필요할 수 있습니다.

CREATE EXTENSION IF NOT EXISTS vector;

데이터베이스 자격 증명과 API 키를 안전하게 관리하기 위해 .env 파일을 사용하여 환경 변수를 관리할 수 있습니다.

DB_HOST=localhost
DB_PORT=5432
DB_USER=yourusername
...

1단계: PostgreSQL 데이터베이스 설정 (Setting Up the PostgreSQL Database)

먼저, 벡터 데이터를 저장할 수 있도록 PostgreSQL 데이터베이스를 구성합니다. 이는 pgvector 확장을 사용하여 벡터 데이터를 담기 위해 특별히 설계된 컬럼을 가진 테이블을 생성하는 과정을 포함합니다.

import psycopg2

connection = psycopg2.connect(
...

이 코드는 PostgreSQL 데이터베이스에 연결하고, 임베딩 (Embeddings)을 저장하기 위해 VECTOR 컬럼을 가진 products라는 이름의 테이블을 생성합니다. VECTOR(300)은 각 벡터가 300 차원을 가짐을 나타내며, 이는 BERT와 같은 특정 사전 학습된 모델 (Pre-trained models)에서 일반적인 수치입니다.

2단계: 데이터 준비 및 임베딩 생성 (Preparing Data and Generating Embeddings)

다음으로, 데이터를 준비하고 사전 학습된 모델을 사용하여 임베딩을 생성합니다. 이 임베딩들은 나중에 검색할 수 있도록 PostgreSQL 데이터베이스에 저장됩니다.

import numpy as np
import pandas as pd
from transformers import AutoTokenizer, AutoModel
...

이 스크립트는 BERT 모델을 사용하여 제품 설명에 대한 300차원 임베딩 (embeddings)을 생성합니다. 각 설명에 대해 고정된 크기의 벡터 표현 (vector representation)을 얻기 위해 마지막 은닉 상태 (last hidden state)에 평균 풀링 (mean pooling) 기술을 적용합니다.

단계 3: 데이터베이스에 임베딩 삽입하기

임베딩이 준비되었으므로, 다음 단계는 이를 PostgreSQL 데이터베이스에 삽입하는 것입니다. 이 과정에는 numpy 배열을 SQL 삽입과 호환되는 리스트 (list) 형식으로 변환하는 작업이 포함됩니다.

def insert_embeddings_to_db(data):
    connection = psycopg2.connect(
        host="localhost",
...

이 함수는 DataFrame을 반복하며 각 행을 데이터베이스에 삽입합니다. 임베딩은 PostgreSQL의 VECTOR 타입에 기대되는 입력 형식과 일치하도록 리스트로 변환됩니다.

⚠️ 흔한 실수: 임베딩의 차원이 PostgreSQL의 VECTOR 컬럼에 지정된 차원과 일치하는지 확인하십시오. 차원이 일치하지 않으면 삽입 중에 오류가 발생합니다.

구현 테스트하기

설정이 제대로 작동하는지 확인하기 위해, 삽입된 임베딩을 사용하여 유사도 검색 (similarity search)을 수행하겠습니다. 이는 벡터 유사도 (vector similarity)를 기반으로 가장 유사한 항목을 찾기 위해 데이터베이스에 쿼리 (query)를 보내는 과정을 포함합니다.

def search_similar_products(query_embedding, top_k=5):
    connection = psycopg2.connect(
        host="localhost",
...

이 함수는 쿼리 임베딩 (query embedding)과 저장된 임베딩 사이의 코사인 거리 (cosine distance)를 계산하여 상위 k개의 유사한 제품을 검색합니다. 결과는 유사도 순으로 정렬되며, 가장 유사한 제품이 가장 먼저 나타납니다.

다음에 구축할 내용

이 튜토리얼을 마친 후, 다음과 같은 기능들을 추가하여 프로젝트를 확장해 보세요:

React 또는 Next.js와 같은 프레임워크를 사용하여 웹 인터페이스 (Web Interface)를 통합함으로써 사용자가 검색 기능과 직접 상호작용할 수 있도록 합니다.
사용자 행동 데이터 (User Behavior Data)와 피드백 루프 (Feedback Loops)를 포함하여 추천 시스템 (Recommendation System)을 강화하고, 시간이 지남에 따라 정확도를 향상시킵니다.
더 큰 데이터셋을 더 효율적으로 처리할 수 있도록 FAISS에서 IVF 또는 HNSW와 같은 다양한 인덱스 유형 (Index Types)을 실험하여 성능을 최적화합니다.