3초는 괜찮았던 시절이 있었습니다. 2026년에는 제품을 망치는 요인이 됩니다.

지난 18개월 동안 AI 시스템의 지연 시간 (Latency) 예산이 급격히 줄어들었습니다. 대부분의 검색 레이어 (Retrieval layers)는 현재 사용자들이 기대하는 수준에 맞춰 구축되지 않았습니다.

아무도 경고하지 않은 임계값
2024년에는 엔드 투 엔드 (End-to-end) AI 응답 시간이 3초라면 실행 가능한 수준이었습니다. 팀들은 그 속도로 시스템을 출시했고 사용자들도 이를 용인했습니다. 느리긴 했지만, 기술이 새롭고 충분히 인상적이었기에 사람들은 관용을 베풀었습니다.
그 유예 기간은 끝났습니다.
2026년까지 3초는 계약 파기 사유 (Dealbreaker)가 될 것입니다. 사용자들은 1초 미만의 응답을 기대합니다. 음성 AI 에이전트 (Voice AI agents)는 총 응답 시간이 800밀리초 (milliseconds) 미만이어야 합니다. 대화형 채팅 에이전트 (Conversational chat agents)는 경험이 깨지기 시작하기 전까지 200밀리초의 예산을 가집니다. 기준은 빠르게 변했으며, 다시 돌아가지 않을 것입니다.
문제는 대부분의 검색 레이어 (Retrieval layers)가 다른 기대치에 맞춰 구축되었다는 점입니다.

시간이 실제로 소요되는 곳
RAG 시스템은 사용자의 질문과 답변을 받는 사이에 여러 단계가 있습니다. 각 단계는 대부분의 팀이 깨닫는 것보다 더 타이트한 예산에서 시간을 소비합니다.
임베딩 (Embedding) 호출은 사용자의 쿼리를 벡터 (Vector)로 변환합니다. 일반적인 호스팅된 임베딩 API를 사용할 경우, 제공업체와 네트워크 조건에 따라 100에서 400밀리초가 소요됩니다.
벡터 검색 (Vector search)은 데이터베이스에서 관련 청크 (Chunks)를 검색합니다. 잘 구성된 전용 벡터 데이터베이스 (Vector database)는 이를 50밀리초 미만으로 처리합니다. 구성이 잘못되었거나 동시 부하 (Concurrent load)가 걸린 경우 200에서 500밀리초가 걸릴 수 있습니다.
리랭킹 (Re-ranking) 단계는 검색된 청크의 관련성을 점수화합니다. 여기에 50에서 200밀리초를 추가하십시오.
LLM은 응답을 생성합니다. 출력 길이와 모델에 따라 400에서 1,500밀리초를 추가하십시오.
총 800밀리초의 엄격한 예산을 가진 음성 AI 사용 사례에 이 수치들을 모두 더해보면 계산은 가혹합니다. 만약 임베딩 호출에 300ms가 걸리고 LLM에 400ms가 걸린다면, 벡터 검색에는 100ms만 남습니다. 그 수치를 초과하는 매 밀리초마다 사용자 경험은 무너집니다.

2026년을 위한 벤치마크 수치

1,536차원(dimensions)에 걸쳐 100만 개의 벡터(vectors)를 테스트한 Salt Technologies의 2026년 벡터 데이터베이스(vector database) 벤치마크는 각 데이터베이스가 실제로 어디에 위치하는지에 대한 가장 명확한 현재 상황을 보여줍니다.

Qdrant는 P50에서 4ms를 기록하며, 목적 기반 벡터 데이터베이스(purpose-built vector databases) 중 가장 낮은 수치를 보였습니다. Redis는 인메모리 워크로드(in-memory workloads)에서 P50 기준 5ms를 기록했습니다. 99% 재현율(recall) 임계값에서 Qdrant와 pgvector 및 pgvectorscale을 사용하는 Postgres 모두 100ms 미만의 최대 쿼리 지연 시간(query latency)을 달성했습니다.

실제 운영 환경(production)에서 중요한 것은 P99 수치입니다. P50은 중앙값(median)입니다. P99는 가장 느린 하위 1%의 사용자가 경험하는 수치입니다. 일일 활성 사용자(daily active users)가 10,000명인 시스템에서 P99 지연 시간은 매일 100명의 사용자 경험을 결정합니다. 엔터프라이즈 AI(enterprise AI) 분야에서 이 100명의 사용자에는 시스템을 계속 유지할 가치가 있는지에 대한 내부 평가를 작성할 가능성이 가장 높은 사람들이 포함되는 경우가 많습니다.

3억 4천만 개의 벡터를 관리하는 Reddit의 엔지니어링 팀은 2025년 배포 과정에서 메타데이터 필터링(metadata filtering)을 주요 성능 병목 현상(performance bottleneck)으로 식별했습니다. 동시 사용자(concurrent users)가 증가함에 따라, 데이터베이스는 유사도 거리(similarity distances)를 계산하는 것보다 메타데이터 필터를 해결하는 데 더 많은 시간을 소비했습니다. 벡터 그래프(vector graph)와 관계형 메타데이터 저장소(relational metadata store) 사이에서 데이터를 이동시키는 과정은 P99 지연 시간을 10배 급증시켰습니다.

동시 부하(concurrent load) 상황에서 발생하는 10배의 P99 급증은 설정(configuration)의 문제가 아닙니다. 그것은 아키텍처(architecture)의 문제입니다. 그리고 이는 단일 클라이언트 벤치마크(single-client benchmarks)에서는 보이지 않습니다.

대부분의 평가 방식에 존재하는 동시성 격차 (Concurrency Gap)

VectorDBBench와 같은 표준 벤치마크 (benchmarks)는 단일 클라이언트 (single client)로 테스트를 수행합니다. 하지만 실제 운영 시스템 (production systems)은 서로 다른 메타데이터 (metadata) 서브셋을 동시에 타격하는 100개 이상의 동시 클라이언트 (concurrent clients)와 함께 실행됩니다.

벤치마크 조건과 운영 조건 사이의 이러한 격차는 팀들이 제품 출시 후 지연 시간 (latency) 수치에 놀라게 되는 가장 흔한 이유 중 하나입니다. 데이터베이스는 테스트 중에 성능이 좋았습니다. 테스트에는 클라이언트가 하나였습니다. 운영 환경에는 백 개가 있습니다.

메타데이터 필터링 (Metadata filtering)은 동시성 문제를 증폭시킵니다. "이 사용자로부터, 이 카테고리로 태그된, 이 날짜 이후에 생성된 문서를 검색하라"와 같은 필터는 데이터베이스가 벡터 유사도 계산 (vector similarity calculation)과 구조화된 속성 조회 (structured attribute lookups)를 결합할 것을 요구합니다. 단일 클라이언트 조건에서는 이것이 빠릅니다. 다양한 필터 조합이 있는 동시 부하 (concurrent load) 환경에서는 쿼리 플래너 (query planner)가 진정으로 복잡한 작업을 수행하게 되며, 지연 시간 프로필 (latency profile)이 변화합니다.

이것이 바로 현실적인 부하 환경에서 5ms 미만의 P99를 기록한 Endee의 결과가 의미 있는 벤치마크 결과인 이유입니다. 동시 운영 조건에서의 P99는 귀하의 AI 시스템이 사용자에게 실제로 빠르게 느껴질지 여부를 결정하는 요소입니다. 단일 클라이언트 조건에서의 P50은 귀하에게 거의 아무것도 알려주지 않습니다.

Voice AI라는 강제적 요인 (The Voice AI Forcing Function)
Voice AI는 지연 시간 (Latency)에 관한 논의를 결론으로 몰아넣는 유스케이스 (Use case)입니다.
Voice AI 에이전트가 총 응답 시간 800ms 미만을 달성하려면 100ms 미만의 검색 (Retrieval) 속도가 필요합니다. 이는 임베딩 (Embedding) 이후와 LLM 생성 (Generation) 이전 사이에 벡터 검색 (Vector search)에 할당할 수 있는 시간이 대략 100ms뿐임을 의미합니다. 이 예산 내에서는 4ms의 데이터베이스와 50ms의 데이터베이스 사이의 차이는 미미한 수준이 아닙니다. 하나는 제품을 작동하게 만들고, 다른 하나는 그렇지 못하게 만듭니다.
이는 단순히 Voice AI에만 국한된 문제가 아닙니다. Voice AI는 지연 시간 요구 사항이 부정할 수 없는 수준이 되는 지점이기 때문입니다. 검색 지연 시간 (Retrieval latency)에 대해 신중하게 고민하지 않은 팀들은 Voice 제품을 구축하려는 순간 이 문제에 직면하게 됩니다. 텍스트 인터페이스에서는 허용 가능했던 제약 조건이 음성 인터페이스에서는 치명적이 됩니다.
그리고 음성 기술은 성장하고 있습니다. 엔터프라이즈 코파일럿 (Enterprise copilots), 콜센터 AI, 회의 어시스턴트, 실시간 번역 레이어: 이 모든 것들은 총 800ms의 예산이 협상의 여지 없이 필수적인 음성 또는 음성에 가까운 애플리케이션들입니다.

빠른 검색 (Fast Retrieval)에 실제로 필요한 것
운영 부하 (Production load) 환경에서 10ms 미만의 P99 벡터 검색을 달성하려면 세 가지 요소가 함께 작동해야 합니다.
첫째, 인덱스 (Index)가 메모리에 상주하거나 예측 가능하고 낮은 지연 시간의 디스크 읽기 (Disk reads)로 접근 가능해야 합니다. 동시 부하 (Concurrent load) 상황에서 디스크로 넘쳐흐르는 (Spill to disk) 인덱스는 사용자 경험을 망치는 P99 스파이크 (Spikes)를 발생시킵니다.
둘째, 필터링 아키텍처 (Filtering architecture)는 동시 사용자 수에 따라 확장되는 쿼리 계획 (Query planning) 오버헤드를 추가하지 않고 메타데이터 조회 (Metadata lookups)를 처리할 수 있어야 합니다. 벡터 저장소와 메타데이터 저장소를 서로 다른 내부 시스템으로 분리하는 데이터베이스는 Reddit 팀이 설명한 방식 그대로 부하 상황에서 지연 시간을 가중시킵니다.
셋째, 데이터베이스는 배포 전, 운영 동작에 대해 아무것도 알려주지 않는 단일 클라이언트 조건이 아니라, 실제적인 쿼리 속도에서의 동시 부하 환경에서 테스트되어야 합니다.
이 세 가지 항목을 모두 충족하는 팀은 빠르다고 느껴지는 AI 시스템을 구축합니다. 이 중 어느 것도 충족하지 못하는 팀은 출시 후에 문제를 발견하게 되며, 이를 해결하기 위해서는 아무도 계획하지 않았던 마이그레이션 (Migration)이 필요하게 됩니다.

출시 전 수행해야 할 실질적인 테스트

어떤 AI 시스템이든 프로덕션 (Production) 환경에 배포하기 전에, 예상되는 피크 시점의 동시 사용자 수(Peak concurrent users)를 대상으로 실제 쿼리 패턴(Query patterns)과 메타데이터 필터 분포(Metadata filter distributions)를 반영한 부하 테스트 (Load test)를 수행하십시오. 단순히 P50뿐만 아니라 P95 및 P99 지연 시간 (Latency)을 확인해야 합니다. 동시 사용자가 두 배로 늘어날 때 어떤 일이 발생하는지도 확인하십시오.

만약 피크 부하 상황에서 P99 수치가 50ms를 초과한다면, 이는 프롬프트 엔지니어링 (Prompt engineering)이나 모델 선택 (Model selection)만으로는 해결할 수 없는 검색 아키텍처 (Retrieval architecture)의 문제입니다. 해결책은 데이터베이스 (Database)에 있습니다.

3초는 2024년에는 괜찮았습니다. 하지만 2026년에는 사용자를 잃게 만드는 요인이 됩니다. 1초 미만의 검색 속도는 달성하기 어려운 목표 (Stretch goal)가 아닙니다. 그것은 기본값 (Baseline)입니다.

Endee는 실제 동시 부하 상황에서 5ms 미만의 P99 지연 시간을 제공하며, 처리량 (Throughput)과 재현율 (Recall)을 동시에 측정하는 독립적인 벤치마크에서 1위를 기록했습니다. endee.io에서 무료로 시작해 보세요.

3초는 괜찮았던 시절이 있었습니다. 2026년에는 제품을 망치는 요인이 됩니다.

요약

핵심 포인트

댓글