AI 헬프 데스크: AI 앱이 동일한 질문에 반복해서 답변하는 것을 방지하는 방법

AI 앱에서의 캐싱 (Caching)에 관한 쉬운 영어 가이드 — 배경 지식이 필요 없습니다.

문제 상황 요약

많은 사람들이 AI 앱을 사용할 때, 동일한 질문을 계속해서 던집니다. 똑같은 질문을 반복하거나, 때로는 표현 방식만 약간 다르게 질문하곤 합니다. 그리고 AI가 답변할 때마다 매번 실제 비용이 발생하며 사용자는 몇 초 동안 기다려야 합니다.

따라서 우리는 이미 제공한 답변을 기억하고, 매번 AI를 번거롭게 하는 대신 즉시 답변을 돌려주는 시스템을 원합니다.

이 전체 시스템을 시각화하는 가장 좋은 방법은 **헬프 데스크 (Help Desk)**입니다. 이 헬프 데스크의 구성원과 도구들을 하나씩 소개해 드리겠습니다. 각 항목 옆에는 여러분이 무엇인지 항상 알 수 있도록 실제 기술 명칭을 괄호 안에 표기하겠습니다.

파트 1 팀 소개 (우리가 사용하는 서비스들)

1. 뒷방의 전문가 (AI 모델 / GPT, Claude, 또는 Gemini와 같은 "LLM")

이 전문가는 거의 모든 것에 답할 수 있는 천재이지만, 느리고 비용이 많이 듭니다. 전문가에게 무언가를 물어볼 때마다 비용이 발생하고 몇 초의 시간이 걸립니다. 따라서 이 헬프 데스크의 황금률은 다음과 같습니다: 이전에 답변하지 않은 질문에 대해서만 전문가를 번거롭게 하라.

2. 답변 노트 (캐시 (Cache))

이것은 헬프 데스크가 이미 알아낸 답변을 적어두는 노트입니다. 다음에 동일한 질문이 들어오면, 직원은 전문가를 깨우는 대신 노트에서 답변을 읽어줍니다. 노트를 읽는 것은 즉각적이며 비용이 들지 않습니다. 실제로 두 종류의 노트가 있습니다:

글자 그대로의 노트 ("정확한 캐시 (Exact Cache)", 주로 Redis 또는 Valkey 사용)
매우 빠릅니다. 누군가 이전에 입력된 것과 정확히 동일하게 타이핑된 질문을 하면, 이 노트는 눈 깜짝할 사이에 이를 찾아냅니다.
의미가 같은 노트 ("시맨틱 캐시 (Semantic Cache)", 예: Redis LangCache, RedisVL, 또는 GPTCache)
더 똑똑합니다. 단어가 다르더라도 의미가 같은 질문을 포착합니다. (예: "문자열을 어떻게 뒤집나요?" vs "문자열을 어떻게 반전시키나요?")

3. 의미 판독기 (임베딩 모델 (Embedding Model))

동일한 의미의 노트북이 작동하려면, 헬프 데스크는 두 질문이 같은 의미인지 판별할 수 있는 방법이 필요합니다. 의미 판독기(meaning-reader)는 어떤 질문이든 받아 이를 일종의 "의미 지문"(기술적 용어로는 벡터 임베딩 (vector embedding) )으로 변환합니다. 두 질문이 의미하는 바가 같다면, 사용된 단어가 다르더라도 거의 동일한 지문을 갖게 됩니다. 이것이 바로 표현이 바뀐 질문들을 매칭하는 핵심 비결입니다. (지문이 어떻게 만들어지는지 알 필요는 없습니다. 그저 만들어진다는 사실만 알면 됩니다.)

4. 스마트한 목차 (벡터 저장소 / 인덱스 (vector store / index), 예: Redis Search, pgvector, Qdrant, Pinecone)

노트북의 페이지가 많아지면, 매번 모든 페이지를 넘겨보는 것은 느려질 것입니다. 그래서 헬프 데스크는 스마트한 목차를 유지합니다. 이 목차는 새로운 질문의 지문이 주어지면 모든 페이지를 읽는 대신, 일치할 가능성이 높은 몇 개의 페이지로 즉시 점프합니다. 이것이 수백만 개의 저장된 답변이 있더라도 "동일한 의미" 검색을 빠르게 유지하는 방법입니다.

5. 안내 데스크 직원 (라우터 / 게이트웨이 (router / gateway), 예: Portkey, Helicone, Cloudflare AI Gateway)

이 사람은 모든 질문을 접수하고 어떻게 처리할지 결정하는 안내 데스크의 직원입니다. 먼저 노트북을 확인하고, 일치하는 내용이 없는 경우에만 어떤 전문가에게 질문을 보낼지 결정합니다 (쉬운 질문은 저렴한 주니어 전문가에게, 어려운 질문은 시니어 전문가에게 보냅니다). 직원은 교통 정리 요원 역할을 합니다.

6. 각 페이지의 라벨 ("범위" / 테넌트 태그 ("scope" / tenant tag))

노트북에 작성된 모든 답변에는 누가 이를 읽을 수 있는지 나타내는 라벨이 붙습니다. 어떤 답변은 "누구나" (일반적인 질문)라고 라벨이 붙습니다. 어떤 답변은 "이 사람만" (누군가의 개인적인 정보에 관한 질문)이라고 라벨이 붙습니다. 이 라벨은 한 사람의 개인적인 답변을 다른 사람에게 절대 제공하지 않도록 보장하는 수단입니다.

7. 유효 기간이 있는 포스트잇 (TTL / 세션 메모리 (TTL / session memory))

어떤 메모들은 진행 중인 하나의 대화처럼 짧은 시간 동안만 유용합니다. 헬프 데스크는 이러한 메모들을 **일정 시간이 지나면 자동으로 떨어져 나가는 포스트잇 (sticky-notes)**에 작성하여, 메모가 영원히 쌓이지 않도록 합니다.

8. 전문가의 빠른 훑어보기 할인 (OpenAI, Anthropic, Gemini에 내장된 제공업체 "프리픽스 캐싱 (prefix caching)")

우리가 전문가를 호출할 때조차, 전문가는 방금 전 읽었던 질문의 일부에 대해 약간의 할인을 제공합니다. 덕분에 한 대화 내에서 동일한 긴 배경 정보를 두 번 완전히 다시 읽지 않아도 됩니다. 이는 훌륭한 절약 수단이지만, 주의할 점이 있습니다: 전문가는 여전히 매번 새로운 답변을 작성합니다. 이 할인은 전문가를 완전히 건너뛰는 우리의 노트북(notebook)과는 다릅니다. 또한 이는 수명이 짧습니다. 이러한 제공업체의 할인 방식은 보통 비활성 상태가 된 지 몇 분 이내에 만료되는 반면, 여러분의 노트북은 원하는 만큼 답변을 유지할 수 있습니다. (이 차이점에 대해서는 아래에서 더 자세히 다룹니다.)

파트 2: 이들이 모두 함께 작동하는 방식

이제 실제 질문이 헬프 데스크를 통과하는 과정을 살펴보며 팀원들이 각자의 역할을 수행하는 모습을 지켜봅시다.

질문이 도착합니다.
당신이 질문합니다: "Python에서 문자열을 어떻게 뒤집나요?" 그러면 안내 데스크 직원 _(라우터 (router))_가 가장 먼저 이를 받습니다.

빠른 노트북 확인.
직원은 글자 그대로 기록된 노트북 _(정확한 캐시 Redis (exact cache Redis))_을 훑어봅니다. _이와 정확히 일치하는 질문_이 이전에 질문된 적이 있나요? 만약 그렇다면 → 저장된 답변을 즉시 돌려줍니다. 끝났습니다, 전문가는 호출되지 않았습니다.

스마트 노트북 확인.
정확한 문구가 발견되지 않으면, 직원은 의미 판독기 _(임베딩 모델 (embedding model))_에게 질문의 지문(fingerprint)을 만들도록 요청한 다음, 스마트 목차 _(벡터 스토어 (vector store))_를 사용하여 의미가 같은 노트북 _(시맨틱 캐시 (semantic cache))_을 찾아봅니다. 같은 의미를 가진 저장된 답변이 있나요? 충분히 유사한 매칭이라면 → 답변을 돌려줍니다. 여전히 전문가의 도움은 필요하지 않습니다.

이제서야 전문가를 깨웁니다.
두 노트북 어디에도 답이 없다면, 이것은 정말로 새로운 질문입니다. 사무원(clerk)은 어떤 전문가를 사용할지 결정하며 (쉬운 질문 → 더 저렴한 모델, 어려운 질문 → 최상위 모델), 그러면 전문가 _(LLM)_가 새로운 답변을 작성합니다.

다음번을 위해 기록해 둡니다.
새로운 답변은 누가 재사용할 수 있는지 나타내는 라벨 _(범위 태그, scope tag)_과 함께 노트북에 저장됩니다. 이것이 여러분이 앞서 기억했던 중요한 부분입니다. 우리는 전문가가 답변을 제공한 후에 그 답변을 저장합니다. 첫 번째 사람이 그 비용을 "지불"하며, 그 이후의 모든 사람은 노트북에서 무료로 답변을 얻습니다.

멋진 부분: 다른 사람이 동일한 것을 질문할 때

나중에 완전히 다른 사용자가 _"python에서 문자열을 뒤집는 방법은 무엇인가요?"_라고 입력합니다. 단어는 다르지만 의미는 같습니다. 사무원이 지문(fingerprint)을 만들고, 스마트한 목차(smart table of contents)가 첫 번째 사용자가 생성한 페이지를 찾아내며, 의미가 충분히 유사하다면 → 이 새로운 사용자는 전문가 없이, 즉시 노트북에서 직접 답변을 받게 됩니다. 이것이 바로 "캐시(cache)에서 새로운 사용자에게 서비스한다"는 개념이며, 단지 동일한 의미를 가진 노트북이 제 역할을 수행하는 것뿐입니다.

무엇을 저장할지 (그리고 무엇을 공유하지 않을지) 결정하는 방법

공유된 "누구나(anyone)" 노트북에 답변을 쓰기 전에, 헬프 데스크는 한 가지 질문을 던집니다. "이 답변이 모두에게 동일한가, 아니면 오직 이 사람에게만 해당되는가?"

우선 무료로 얻을 수 있는 단서를 확인합니다: 답변하는 데 그 사람의 개인적인 정보가 필요했는가? ("내 주문 번호가 어디인가요?"는 그들의 주문을 조회해야 하므로 개인적입니다. "클로저(closure)란 무엇인가요?"는 개인 정보가 필요 없으므로 일반적입니다.)
"my / this / I'm getting"과 같은 단어를 빠르게 훑어보는 것도 또 다른 힌트가 됩니다.
정말로 불분명한 경우에만 작고 저렴한 판사 _(소형 LLM 또는 분류기, classifier)_에게 물어봅니다. 모든 질문에 대해 판사를 실행하는 것은 절약하는 비용만큼이나 많은 비용이 들기 때문에, 모든 질문이 아닌 오직 그런 경우에만 실행합니다.
여전히 확실하지 않다면 → 공유하지 않습니다. 최악의 경우 전문가에게 다시 물어보면 됩니다. 이는 누군가에게 잘못된 답변을 전달하는 것보다 훨씬 낫습니다.

일반적인 답변은 "누구나 (anyone)" 라벨이 붙어 공유 노트북에 저장됩니다. 개인적인 답변은 "이 사용자 전용 (this person only)" 라벨이 붙어, 해당 사용자에게만 유지되며 다른 사람에게는 절대 보여주지 않습니다.

파트 3 수백만 명의 사용자가 몰리면 어떤 일이 벌어질까요

이 지점에서 사람들은 공포를 느낍니다. "노트북이 감당할 수 없을 정도로 거대해지지 않을까요?" 왜 관리가 가능한지 쉬운 용어로 설명해 드리겠습니다.

질문의 종류가 수백만 개가 아닙니다.
사용자가 수백만 명이라 하더라도, 그들은 계속해서 동일한 인기 질문을 반복해서 던집니다. 따라서 공유 노트북은 사용자 수(거대함)가 아니라, 서로 다른 질문의 수(비교적 작음)에 따라 성장합니다. 사용자가 많아진다는 것은 주로 동일한 페이지가 더 자주 읽힌다는 것을 의미하며, 이는 문제가 되지 않습니다.

한 명이 아닌, 많은 사무원.
한 명의 사무원이 하나의 거대한 노트북을 뒤지는 것은 병목 현상 (bottleneck)이 될 것이므로, 노트북의 조각을 나누어 가진 수많은 사무원을 고용합니다 (이러한 분할 방식을 샤딩 (sharding)이라고 합니다 — 예: Redis Cluster). 바쁘다면? 사무원을 더 추가하면 됩니다. 시스템은 그저 병렬로 작동하는 수많은 동일한 조력자들일 뿐입니다.

똑똑한 목차가 검색 속도를 빠르게 유지합니다.
위에서 다룬 바와 같이, 백만 페이지를 전부 읽는 일은 결코 없습니다. 인덱스 (index)가 일치할 가능성이 높은 항목으로 바로 건너뛰게 해줍니다.

오래된 메모는 버립니다.
오랫동안 아무도 사용하지 않은 페이지는 공간 확보를 위해 삭제됩니다. 따라서 노트북은 잡동사니가 아닌 유용한 답변들로 가득 찬 상태를 유지합니다. 개인용 포스트잇(sticky-notes)은 스스로 만료됩니다.

무언가가 갑자기 유행할 때 (엔지니어들은 이를 "캐시 스탬피드 (cache stampede)"라고 부릅니다).
만약 1만 명의 사람이 갑자기 동시에 똑같은 새로운 질문을 던진다면, 1만 명 모두가 전문가를 깨우게 해서는 안 됩니다. 따라서 첫 번째 질문자만이 전문가에게 가고, 답변이 기록되면 나머지 9,999명은 아주 짧은 순간 기다렸다가 방금 작성된 페이지를 읽습니다. 만 번의 전문가 호출 대신 단 한 번의 호출로 해결하는 것입니다.

핵심 요점.
비싼 전문가(expert)는 오직 진정으로 새로운 질문만을 보게 됩니다. 트래픽의 대부분을 차지하는 모든 반복 질문은 눈 깜짝할 사이에 노트북(notebook)에서 처리됩니다. 따라서 사용자가 천 명에서 오천만 명으로 늘어나더라도, 노트북이 모든 반복 질문을 흡수하기 때문에 AI 비용은 사용자 수보다 훨씬 느리게 증가합니다.

파트 4 전체적인 그림 (이것이 "HLD" 상위 수준 설계입니다))

"HLD"는 단순히 높은 곳에서 내려다본 지도를 의미합니다. 즉, 아주 세부적인 사항 없이 어떤 부분들이 존재하고 누가 누구와 통신하는지를 보여줍니다. 우리의 헬프 데스크를 지도로 나타내면 다음과 같습니다. 질문이 위에서 아래로 이동하는 화살표를 따라가다 보면, 답변이 발견되는 즉시 멈추게 됩니다.

이 지도의 핵심은 다음과 같습니다: 두 노트북이 모두 비어 있을 때만 맨 아래에 있는 전문가에게 도달합니다. 대부분의 질문은 그 단계까지 가지 않습니다. 상단 근처에 있는 노트북에서 즉시 답변됩니다.

파트 5 세부 사항 (이것이 "LLD" 하위 수준 설계입니다))

"LLD"는 끝까지 확대해서 보는 것을 의미합니다. 저장된 답변 하나가 실제로 어떻게 생겼는지, 그리고 조회(lookup)의 정확한 단계가 무엇인지를 보여줍니다. 여전히 쉬운 용어로 설명합니다.

노트북의 한 페이지가 실제로 담고 있는 것

저장된 모든 답변은 하나의 "페이지"이며, 각 페이지는 몇 가지 요소를 포함합니다:

저장된 페이지 하나
- 질문        →  "python에서 문자열을 뒤집는 방법"
- 답변          →  "...전문가가 제공한 단계들..."
...

그게 전부입니다. 질문, 그에 대한 답변, 동일한 의미를 매칭하기 위한 지문(fingerprint), 읽기 권한이 있는 사람을 나타내는 라벨(label), 그리고 오래된 페이지가 쌓이지 않도록 하는 만료일(expiry date)이 포함됩니다.

질문이 도착했을 때의 정확한 단계

질문 정리 (Tidy the question). 아주 미세한 차이로 인해 검색에서 누락되지 않도록 소문자 변환, 공백 제거와 같은 간단한 문구 정리를 수행합니다. 일부 팀은 의미 해석기(meaning-reader) 없이도 정확한 노트북(notebook)과 더 똑똑하게 매칭될 수 있도록 "the", "a", "please"와 같은 불필요한 단어인 _불용어 (stop-words)_를 제거하기도 합니다.
빠른 노트북을 먼저 시도합니다. 정리된 질문을 글자 그대로 찾아봅니다. (정확한 캐시 (exact cache)). 만약 있다면 → 해당 답변을 돌려줍니다. (이 단계는 비용이 매우 저렴하기 때문에 항상 가장 먼저 수행합니다.)
지문(fingerprint)을 만듭니다. 2단계에서 찾지 못했다면, 의미 해석기 _(임베딩 모델 (embedding model))_에게 질문을 지문으로 변환하도록 요청합니다.
스마트한 목차를 검색합니다. 지문을 사용하여 가장 유사한 저장된 페이지를 찾되 (벡터 저장소 (vector store)), 해당 사용자가 읽을 권한이 있는 **레이블 (label)**을 가진 페이지 중에서만 검색합니다.
"충분히 유사함" 다이얼을 적용합니다. 검색 결과로 유사도 점수(closeness score)가 반환됩니다. 이 점수가 우리의 임계값(threshold)을 넘으면 → 해당 페이지의 답변을 돌려줍니다. 넘지 못하면 → 새로운 질문으로 처리합니다.
전문가를 깨운 뒤, 기록합니다. 완전히 일치하는 결과가 없을 경우, 전문가가 답변하며, 우리는 올바른 레이블과 만료일(expiry date)이 포함된 새로운 페이지를 저장합니다.