GenAI 스택의 신비 해제: LLM에서 RAG까지 (시스템적 관점)

분산 시스템, 비동기 마이크로서비스(microservices), 결함 허용 아키텍처(fault-tolerant architectures)를 설계하며 10년 이상을 보낸 백엔드 엔지니어로서, 생성형 AI (Generative AI) 개발과의 첫 만남은 다소 불안하게 느껴졌습니다. 전통적인 소프트웨어 설계에서 결정론 (determinism)은 황금 표준입니다. 우리는 서비스에 명시적인 파라미터를 전달하고, 엄격한 API 스키마에 따라 입력을 검증하며, 데이터베이스 트랜잭션을 처리하고, 매우 예측 가능한 출력을 기대합니다.

생성형 AI는 이러한 패러다임을 뒤집습니다. 거대 언어 모델 (LLMs)은 근본적으로 비결정론적 (non-deterministic)이며, 확률에 기반하여 구동되는 텍스트 예측 엔진입니다.

만약 LLM을 단순히 "AI 마법 상자"로 본다면, 여러분의 프로덕션 애플리케이션은 망가질 것입니다. 하지만 LLM을 고유한 페이로드(payload) 제약 조건을 가진, 변동성이 크고 상태를 가지며(stateful) 비결정론적인 제3자 외부 API로 취급한다면, 이를 중심으로 신뢰할 수 있는 백엔드 시스템을 설계할 수 있습니다.

이 글은 엔터프라이즈 시스템 아키텍트의 관점에서 LLM, 검색 증강 생성 (RAG), 그리고 구조화된 프롬프팅 (structured prompting)과 같은 기초적인 GenAI 스택을 탐구합니다.

1. 기초: 변동성이 큰 외부 API로서의 LLMs

시스템 설계 시, 지연 시간(latency)이 유동적이고 임의의 에러율과 가변적인 데이터 구조를 가진 외부 제3자 API를 다룰 때는 그 위에 직접 애플리케이션을 구축하지 않습니다. 대신 추상화 계층 (abstraction layers), 에러 처리 회로 (error handling circuits), 그리고 입출력 검증 (input/output validation)을 구축합니다.

LLM은 다음과 같은 몇 가지 고유한 제약 조건을 가진 외부 마이크로서비스와 다를 바 없게 취급되어야 합니다:

페이로드 크기 (Payload Size, 컨텍스트 윈도우 (Context Windows)): LLM에 무제한의 데이터를 던질 수는 없습니다. 모든 모델은 토큰 (tokens) 단위로 측정되는 엄격한 버퍼 제한을 가지고 있습니다.
지연 시간 오버헤드 (Latency Overhead): 전통적인 데이터베이스 읽기는 밀리초 (milliseconds) 단위로 이루어집니다. 반면 LLM 추론 (inference) 처리 및 텍스트 생성은 수 초가 걸릴 수 있습니다. 이는 클라이언트의 요청-응답 (request-response) 라이프사이클을 생각하는 방식을 근본적으로 변화시키며, 종종 비동기 큐 (asynchronous queues) 또는 실시간 스트리밍 (real-time streaming) 아키텍처를 요구합니다.
"환각 (Hallucination)" 요인: 만약 LLM이 정적인 학습 파라미터 (static training parameters) 내에 특정 트랜잭션 데이터 (transactional data)를 보유하고 있지 않다면, 그럴듯하게 들리지만 완전히 틀린 응답을 만들어낼 것입니다.

모델을 지속적으로 재학습 (re-training)하거나 미세 조정 (fine-tuning)하는 방식(이는 비용이 많이 들고 느립니다) 없이 이러한 데이터 장벽을 해결하기 위해, 우리는 잘 알려진 백엔드 디자인 패턴을 적용합니다: 프로세싱 호출 (processing call)을 실행하기 직전에 외부 상태 (external state)를 가져오는 것입니다. 이것이 바로 **검색 증강 생성 (Retrieval-Augmented Generation, RAG)**이라 불리는 기술입니다.

2. 데이터 그라운딩 (Data Grounding): RAG란 무엇인가?

개념적으로 RAG는 LLM API 페이로드 (payload)에 "자신의 데이터베이스를 직접 가져오는 것"과 같습니다. 모델이 기업 내부 정보를 암묵적으로 알고 있기를 기대하는 대신, 백엔드 시스템이 관련 컨텍스트 (context)를 가져와 프롬프트 (prompt) 페이로드의 일부로 전달합니다.

[사용자 프롬프트 (User Prompt)] ──► [시스템이 벡터 DB (Vector DB)에 쿼리] ──► [페이로드에 컨텍스트 주입] ──► [LLM API로 전달]

RAG의 아키텍처 설계도 (Architectural Blueprint):

벡터 인덱스 (The Vector Index, 지식 베이스): 비정형 텍스트 문서(PDF, 위키 페이지, 로그 등)는 관리 가능한 크기의 텍스트 청크 (chunks)로 분할됩니다. 이 청크들은 임베딩 모델 (embedding model)을 통과하며, 인간의 언어를 의미론적 의미를 나타내는 고차원 수학적 벡터 (vector)로 변환합니다.
의미론적 검색 (Semantic Retrieval): 쿼리 (query)가 도착하면, 애플리케이션은 해당 쿼리를 벡터로 변환하고 ChromaDB와 같은 특화된 벡터 스토어 (Vector Store) 내부에서 수학적 거리 계산(예: 코사인 유사도 (Cosine Similarity))을 수행합니다.
데이터 주입 (The Data Injection): 시스템은 의미론적으로 가장 관련성이 높은 상위 N개의 텍스트 청크를 가져와 시스템 프롬프트 (system prompt) 창에 결합하고, 근거가 되는 전체 컨텍스트 (context) 블록을 LLM으로 전달합니다.

RAG를 구현함으로써, 여러분은 LLM을 지식 생성기 (knowledge generator)에서 컨텍스트 프로세서 (context processor)로 전환하여 환각 (hallucinations) 현상을 획기적으로 완화할 수 있습니다.

3. 신뢰성 (Reliability): 구조화된 프롬프팅을 통한 API 계약 강제

LLM으로부터 나오는 자유 형식의 텍스트 출력은 자동화된 다운스트림 백엔드 서비스 (downstream backend service)에서 완전히 무용지물입니다. 만약 여러분의 Java 시스템이나 마이크로서비스 파이프라인 (microservices pipeline)이 LLM 응답을 파싱 (parse)해야 한다면, 가공되지 않은 대화형 문단에서 정규 표현식 (regex)을 사용하여 텍스트 답변을 긁어내는 방식에 의존할 수는 없습니다.

이를 해결하기 위해 우리는 **구조화된 출력 (Structured Outputs)**을 사용합니다. 현대적인 AI 오케스트레이션 (orchestration)은 LLM API 요청과 함께 정확한 스키마 정의 (예: Python의 Pydantic 객체 모델 또는 명시적인 JSON 스키마)를 전달하는 과정을 포함합니다. 그런 다음 모델의 샘플링 파라미터 (sampling parameters)를 제한하여, 해당 레이아웃과 일치하는 구문적으로 유효한 JSON을 출력하도록 보장합니다.

4. 코드 블루프린트 (Code Blueprint): 엔터프라이즈급 검증 엔진 구축

기본적인 RAG 시스템의 구체적이고 프로덕션 환경에 바로 적용 가능한 구현 사례를 살펴보겠습니다. 이 블루프린트는 Python, OpenAI, 그리고 인메모리(in-memory) ChromaDB 클라이언트를 사용합니다. 견고한 구조화된 로깅 (structured logging), Pydantic을 통한 강력한 타이핑 (strong typing), 에러 경계 (error boundaries), 그리고 명시적인 파라미터 제어와 같은 아키텍처적 베스트 프랙티스 (best practices)에 주목하십시오.

시스템 의존성 (requirements.txt)

openai>=1.0.0
chromadb>=0.4.0
pydantic>=2.0.0
...

소스 아키텍처 (rag_pipeline.py)

import os
import logging
from typing import List
...

요약 트레이드오프 (Summary Trade-offs)

기본적인 RAG (Retrieval-Augmented Generation)는 LLM (Large Language Model)의 성능과 신뢰성을 획기적으로 향상시키지만, 선형적인 프롬프트 주입 (prompt-injection) 방식에는 명확한 아키텍처적 한계가 있습니다. 사용자 요청이 복합적이 되거나 여러 번의 순차적인 조회가 필요해질 때, 기본적인 단일 단계 RAG 시스템은 역부족입니다.

다단계 추론 (multi-step reasoning), 자기 수정 (self-correction), 그리고 동적 실행 라우팅 (dynamic execution routing)을 처리할 수 있는 애플리케이션 파이프라인을 구축하려면, 우리의 아키텍처는 고정된 선형 파이프라인에서 그래프 기반 상태 엔진 (graph-based state engines)으로 전환해야 합니다. 다음 글에서는 오케스트레이션 엔진 (orchestration engines)을 심층적으로 다루며, LangChain을 평가하고 LangGraph를 사용하여 복잡한 상태 전이 (state transitions)를 관리하는 방법을 탐구할 것입니다.

이 시리즈를 지원하는 코드 저장소는 완전히 오픈 소스이며 GitHub에서 확인할 수 있습니다: production-genai-backend-blueprints.