대부분의 팀이 알지 못하는 32배의 벡터 DB 비용 절감 방법

한 B2B SaaS 창업자가 다음과 같은 한 문장과 함께 자신의 최신 벡터 데이터베이스 (vector database) 인보이스를 우리에게 전달했습니다: "다음 이사회 보고 전까지 이 비용을 80% 줄여야 합니다." 코퍼스 (corpus)는 6개월 만에 3배로 성장했고, 청구 금액도 그에 따라 늘어났으며, 런웨이 (runway) 계산이 더 이상 맞지 않게 되었습니다. 팀의 첫 번째 본능은 제공업체를 교체하는 것이었습니다. 두 번째는 인덱스 (index)를 줄이기 위해 오래된 문서를 삭제하기 시작하는 것이었습니다. 두 가지 모두 잘못된 선택이었습니다. 해결책은 기존 Qdrant 설정에서 단 한 줄의 구성 변경을 통해 메모리를 32배 절감하고 쿼리 지연 시간 (query latency)을 한 자릿수 수준으로 낮추는 것이었습니다. 그들은 약 2%의 재현율 (recall)을 잃었지만, 그들의 평가 세트 (eval set)는 이를 감지할 수 없었습니다. 이것은 이진 양자화 (binary quantization)이며, 프로덕션 RAG에서 가장 덜 사용되는 기술 중 하나입니다.

이진 양자화 (binary quantization)가 실제로 하는 일
표준 임베딩 벡터 (embedding vectors)는 32비트 부동 소수점 (floating point) 숫자로 저장됩니다. BGE-M3에서 생성된 1024차원 임베딩은 1024개의 float x 4바이트 = 벡터당 4096바이트를 차지합니다. 백만 개의 벡터는 4GB입니다. 천만 개는 40GB입니다. 클라우드 벡터 DB 가격은 저장 용량에 따라 대략 선형적으로 증가하며, 빠른 검색을 위해 필요한 RAM에 대한 승수가 추가됩니다.

이진 양자화 (binary quantization)는 각 float를 단일 비트 (bit)로 대체합니다: 양수는 1이 되고, 음수는 0이 됩니다. 동일한 1024차원 임베딩은 이제 1024비트 = 벡터당 128바이트를 차지합니다. 압축률은 정확히 32배입니다. 비교하자면, 그다음 단계인 스칼라 양자화 (scalar quantization, 8비트 정수로 변환)는 4배의 압축만 제공합니다. 곱셉 양자화 (product quantization)는 훨씬 더 복잡한 과정을 거쳐 그 중간 정도의 결과를 냅니다. 이진 양자화 (binary quantization)는 트레이드오프 (trade-off) 곡선의 극단에 있으며, 많은 프로덕션 설정에서 실질적으로 정답이 된다는 것이 밝혀졌습니다.

이것이 작동하는 이유
차원당 1비트로는 의미 있는 유사성을 보존할 수 없을 것이라는 직관은 틀렸으며, 이는 특정한 이유 때문에 틀린 것입니다. 고차원 벡터 (high-dimensional vectors)는 많은 차원에 걸쳐 정보를 중복적으로 담고 있기 때문입니다.

단일 차원의 정확한 크기(magnitude)는 어떤 차원이 양수이고 어떤 차원이 음수인지에 대한 전반적인 패턴보다 훨씬 덜 중요합니다. 1024차원의 이진 벡터 (binary vector)는 여전히 1024비트의 정보를 포함하며, 이는 대략 2^1024개의 가능한 패턴을 구별하기에 충분합니다. 이진 공간 (binary space)에서 쿼리 벡터 (query vector)의 의미론적 이웃 (semantic neighborhood)은 부동 소수점 공간 (float space)과 거의 동일하며, 정밀도 노이즈 (precision noise)는 주로 매우 유사한 벡터들 사이의 경계에서 발생합니다. 수학적 연산 또한 더 빠릅니다. 두 이진 벡터 사이의 유사도를 계산하는 것은 XOR 연산과 팝카운트 (popcount, 1인 비트의 개수를 세는 것)를 수행하는 것입니다. 최신 CPU에서 이는 메모리 속도로 실행되며, 부동 소수점 (float)에 대한 내적 (dot product) 연산보다 대략 30~40배 더 빠릅니다.

재점수화 트릭 (The rescore trick)
이진 양자화 (binary quantization)에 대한 순진한 걱정은 매우 유사한 두 후보 사이를 구별하는 능력을 상실할 수 있다는 점입니다. 실제로 이는 가장 좋은 일치 항목을 원하는 top-k 결과, 즉 단순히 올바른 이웃에 속하는 것이 아니라 최상의 매칭을 원하는 경우에 가장 중요하게 작용합니다. 해결책은 재점수화 (rescore) 단계입니다. 파이프라인은 다음과 같이 구성됩니다: 더 넓은 범위의 top-k를 검색하기 위해 이진 검색을 실행합니다 (예: top 10 대신 top 50 또는 top 100). 오직 그 50개의 후보에 대해서만 원래의 부동 소수점 유사도를 계산합니다. 부동 소수점 유사도에 따라 순서를 재정렬하고 실제 top 10을 반환합니다. 두 번째 단계는 아주 작은 후보 집합에 대해서만 실행되므로 비용이 저렴합니다. 전체 쿼리 지연 시간 (query latency)은 양자화되지 않은 버전보다 여전히 훨씬 낮으면서도, 최종 랭킹 품질은 본질적으로 동일합니다.

Qdrant의 공개 벤치마크 수치: 전체 정밀도 (full-precision) 검색은 100ms, 재점수화 없는 이진 검색은 3ms (35배 빠름)이지만 재현율 (recall)이 8~12% 하락합니다. 반면 4배 오버샘플링 (oversampling)과 재점수화를 적용한 이진 검색은 6ms (15배 빠름)이며 재현율 하락은 2% 미만입니다. 대부분의 프로덕션 유스케이스 (production use cases)에서 두 번째 설정이 최적의 지점 (sweet spot)입니다.

언제 사용할 것인가
코퍼스 (corpus)가 100,000개 이상의 벡터로 구성된 모든 새로운 RAG 프로젝트에 대한 Sapota의 기본 권장 사항은 다음과 같습니다: 벡터 DB에서 이진 양자화를 활성화하십시오. 유스케이스가 재현율에 얼마나 민감한지에 따라 오버샘플링을 2배 또는 4배로 설정하십시오.

최종 순위 지정(ordering) 시 원본 벡터를 사용할 수 있도록 리스코어(rescore)를 활성화하십시오. 이 설정은 대부분의 평가 세트(eval sets)에서 노이즈에 묻힐 정도로 미미한 재현율(recall) 손실만 발생시키면서, 30배에서 35배의 지연 시간(latency) 개선과 32배의 메모리 절감을 가져다주는 구성입니다.

이진 양자화(binary quantization)를 건너뛰는 경우는 다음과 같습니다:

벡터 수가 100,000개 미만인 코퍼스(Corpus). 이 규모에서는 메모리 절감 효과가 미미하며, 리스코어(rescore)로 인한 오버헤드가 그만한 가치가 없습니다.
매우 낮은 차원의 임베딩(256차원 미만). 이진 양자화가 효과적인 이유는 고차원(high dimensionality)이 공격적인 압축 하에서도 신호(signal)를 보존하기 때문입니다. 256차원 이하에서는 재현율(recall) 저하가 더 커지며 리스코어를 통해 복구하기가 더 어려워집니다.

95% 이상의 재현율(recall)이 요구되며 이를 측정해야 합니다. 고정밀 검색(법률 조사, 의료 기록 검색, 규제 준수)의 경우 1~2%의 재현율 손실이 문제가 될 수 있습니다. 적용하기 전에 실제 평가 세트(eval set)에서 신중하게 비교를 수행하십시오.

창업자에게 일어난 변화
진단에는 오후 한나절이 걸렸습니다. 우리는 다음과 같은 작업을 수행했습니다:

기존 Qdrant 컬렉션 정의에 quantization_config: BinaryQuantization, always_ram: True를 추가했습니다.
코퍼스를 재색인(re-indexed)했습니다(밤새 6시간이 소요되었으나, 운영 중단은 없었습니다).
쿼리 경로를 업데이트하여 params.quantization.rescore=True, oversampling=2.0을 설정했습니다.
양자화된 버전과 양자화되지 않은 버전을 대상으로 기존 평가 세트(eval set)를 병렬로 실행했습니다.
평가 세트는 두 버전 사이의 차이를 구분할 수 없었습니다.
메모리 사용량이 18GB에서 580MB로 감소했습니다.
쿼리 지연 시간(query latency)이 p50 기준 145ms에서 9ms로 감소했습니다.
다음 결제 주기에서 벡터 DB 비용이 약 75% 감소했으며, 인프라 변경 없이 코퍼스를 10배 더 확장할 수 있는 여유 공간을 확보했습니다.

후속 논의는 그들이 실제로 클라우드 벡터 DB가 더 이상 필요한지에 대한 것이었습니다. 580MB 규모라면 저렴한 단일 VM에서 셀프 호스팅(self-hosted) Qdrant를 실행할 수 있습니다. 그들은 한 달 이내에 이전하였고, 비용을 추가로 60% 더 절감했습니다.

어떤 벡터 데이터베이스가 이를 지원하나요?
단일 설정으로 리스코어(rescore)를 포함한 네이티브 이진 양자화(native binary quantization)를 지원하는 경우: Qdrant가 가장 성숙한 구현체를 보유하고 있습니다.

이것이 우리가 기본적으로 사용하는 방식입니다. Milvus는 BIN_FLAT 및 BIN_IVF_FLAT 인덱스 타입을 통해 이를 지원합니다. Weaviate는 최근 BQ 벡터 인덱스 옵션을 통해 지원을 추가했습니다. Pinecone은 현재 관리형 제품(managed product)에서 이진 양자화(binary quantization)를 노출하지 않습니다. 자체 호스팅(self-hosted) 환경의 경우, Qdrant가 쉬운 정답입니다. 관리형 환경의 경우, 이진 양자화가 비용을 유의미하게 절감할 수 있는 모든 코퍼스(corpus)에 대해 Pinecone과 Qdrant Cloud를 비교하면 보통 Qdrant 쪽으로 결과가 기울게 됩니다.

후기 상호작용(late interaction) 모델인 ColBERT 및 ColPali와의 결합에 대해 한 가지 언급하자면, 두 모델 모두 청크(chunk)나 페이지당 많은 수의 작은 벡터를 생성합니다. 이진 양자화는 여기서 놀라운 효과를 발휘합니다. ColPali 페이지당 1,024개의 벡터가 있을 때, 각 벡터가 4,096 바이트 대신 128 비트가 되면 페이지당 저장 용량이 4 MB에서 16 KB로 줄어듭니다. 이것이 후기 상호작용 기술을 대규모 코퍼스 규모에서도 실제 운영 가능한 수준(production-viable)으로 만드는 핵심입니다. 만약 이진 양자화 없이 후기 상호작용 모델을 실행하고 있다면, 필요하지 않은 저장 공간에 비용을 지불하고 있는 것입니다.

벡터 DB 청구 금액이 감당할 수 없을 정도로 커졌나요? 인프라 비용이 코퍼스가 제공하는 가치보다 더 빠르게 증가하고 있다면, 그 해답은 대개 다른 벡터 데이터베이스로 바꾸는 것이 아닙니다. 대부분은 이미 사용 중인 데이터베이스의 설정(configuration)을 변경하는 것입니다. Sapota는 현재 설정을 벤치마킹하고, 재현율(recall) 요구 사항에 적합한 양자화 및 인덱싱 변경 사항을 식별하며, 전후 평가 수치와 함께 작동 가능한 PR(Pull Request) 형태로 마이그레이션을 완료해 주는 1주일간의 벡터 DB 최적화 컨설팅을 제공합니다. 현재 사용 중인 벡터 DB, 코퍼스 크기, 대략적인 월간 비용을 기재하여 AI 엔지니어링 페이지를 통해 문의해 주세요. 진단 통화(diagnostic call)를 통해 처음 30분 이내에 절감 가능한 비용 범위를 확인할 수 있습니다.

대부분의 팀이 알지 못하는 32배의 벡터 DB 비용 절감 방법

요약

핵심 포인트

댓글