2026년에 파산하지 않고 워드프레스 AI 챗봇을 만든 방법

솔직히 말해서, 워드프레스 AI 챗봇을 만드는 것은 제가 계속 미루던 일 중 하나였습니다. 큰 이름의 모델 가격들을 볼 때마다 제 지갑은 움츠러들고 숨어버리곤 했죠. 입력 토큰 백만 개당 $2.50이고 출력 토큰 백만 개당 $10.00인 GPT-4o라니? 한 달에 50달러 정도 벌 수도 있는 부업을 위해서요? 됐습니다.

하지만 문제는 이겁니다. 저는 제 SaaS 도구의 문서화를 위한 작은 워드프레스 사이트를 가지고 있었고, 지원 이메일에서 똑같은 다섯 가지 질문에 계속 답하는 것이 지겨웠습니다. 챗봇이 필요하다는 생각이 들었죠. 하지만 대부분 '설정의 버튼을 클릭하세요'라는 답변만 하는 것에 큰 모델 가격을 지불할 명분이 없었습니다.

그래서 저는 깊은 탐험(rabbit hole)을 시작했습니다. 약 2주 동안 다양한 제공업체와 다양한 모델들을 테스트했고, 결국 실제로 작동하면서도 저에게 엄청난 비용이 들지 않는 무언가를 찾게 되었습니다. 제가 배운 것을 알려드릴게요. 혹시 AI 가격표를 보며 좌절하는 인디 해커라면 이 글이 여러분을 위한 것입니다.

가격 현실 점검 (The Pricing Reality Check)

처음에 찾아볼 때는 'AI가 이제 정말 싸다'는 게시물들을 계속 봤습니다. 물론 기술적으로는 맞지만, 저렴함과 유용함 사이의 간극은 엄청납니다. 토큰 백만 개당 $0.01짜리 모델을 구할 수는 있지만, 그것들은 벽돌만큼 똑똑합니다. 중간 정도의 무언가가 필요합니다.

제가 여러 옵션을 테스트한 후 만든 가격표가 여기 있습니다. 이 모델들이 제가 계속 돌아갔던 것들이며, 실제로 본 정확한 가격(반올림이나 애매한 계산 없음)입니다:

모델	입력 $/M	출력 $/M	컨텍스트 윈도우
DeepSeek V4 Flash	0.27	1.10	128K
...
솔직히 말해서, 처음 GPT-4o의 가격을 봤을 때 심장이 멎는 줄 알았습니다. 출력 토큰 백만 개당 $10.00이라니?! 참고로 지난달 제 전체 챗봇 사용량은 약 230만 개의 출력 토큰이었습니다. 이것만 해도 OUTPUTS에 $23입니다. 여기에 입력(inputs)까지 더하면, 지원 질문 하나에 답변하는 데 월 $30 이상을 쓰게 됩니다.

그래서 Global API를 찾아보기 시작했습니다. 제가 관심을 가졌던 거의 모든 모델들이 하나의 엔드포인트를 통해 라우팅되었고, 가격은 백만 토큰당 $0.01부터 시작하여 프리미엄 제품의 경우 최대 $3.50까지였습니다. 그리고 이걸 보세요 — 총 184개의 모델이 있습니다. 제가 사용하고 싶을 수도 있는 모델이 184개나 있다는 사실조차 몰랐습니다. 좋은 의미로 압도적입니다.

DeepSeek V4 Flash를 선택한 이유

지원 챗봇에게는 박사 학위 수준의 모델이 필요하지 않습니다. 질문을 분석하고, 컨텍스트를 살펴본 다음, 일관성 있는 답변을 제공할 수 있는 것이 필요합니다. DeepSeek V4 Flash가 이를 백만 토큰당 $0.27 입력과 $1.10 출력으로 해냅니다. 이는 어느 쪽의 토큰 수를 보느냐에 따라 GPT-4o보다 문자 그대로 4~9배 저렴합니다.

제가 테스트해 본 결과, 품질은 견고했습니다. 제 특정 사용 사례(워드프레스 플러그인 기술 지원)에서는 GPT-4o만큼 좋지 않을 수 있지만, 솔직히 '비밀번호를 어떻게 재설정하나요' 같은 질문에는 GPT-4o의 천재성이 필요하지 않습니다. 저는 '링크를 클릭하고, 이메일을 확인한 다음, 여기로 돌아오세요'가 필요합니다.

128K 컨텍스트 윈도우 역시 큰 장점입니다. 전체 제품 매뉴얼과 사용자 질문, 그리고 이전 대화 기록을 모두 여기에 담아도 아직 한계에 훨씬 못 미칩니다.

코드 (제가 사용한 첫 작동 버전)

이것이 제가 처음 시작했던 실제 코드입니다. 기본적으로 OpenAI와 호환되는 호출이지만 Global API를 가리키도록 수정했습니다. 솔직히 저를 설득시킨 것은 이것이었습니다 — 이상한 커스텀 SDK도, 독점적인 형식도 없이, 표준 채팅 완료(chat completions) 엔드포인트만 사용한다는 점입니다:

import openai
import os

...

저는 이것을 제가 만들고 있던 WordPress 플러그인에 집어넣고, REST 엔드포인트(endpoint)에 연결했습니다. 그러면 쾅 — 작동하는 챗봇이 완성됩니다. 첫 번째 버전을 배포하는 데 아마 한 시간 정도 걸렸을 것입니다. 여기에는 그냥 포기하고 월 99달러를 청구하는 제3자 챗봇 서비스(third-party chatbot service)를 사용할까 고민하며 화면을 멍하니 바라보던 시간도 포함되어 있습니다.

최적화 단계 (The Optimization Phase)

기본 버전이 작동하기 시작하자, 몇 가지 사항이 눈에 띄기 시작했습니다. 첫째, 사용자들은 똑같은 질문을 반복해서(REPEATEDLY) 했습니다. 정말 똑같은 질문 말입니다. "이거 어떻게 설치하나요?"라는 질문이 첫 주에만 200번 정도 나왔습니다. 솔직히 말해서, 이는 기분 좋기도 했지만(사람들이 사용하고 있었으니까요!) 동시에 공포스럽기도 했습니다(똑같은 답변에 대해 200번이나 비용을 지불하고 있었으니까요).

그래서 저는 캐싱 레이어(caching layer)를 구축했습니다. 꽤 간단한 작업이었습니다. 사용자의 질문을 해싱(hash)하고, Redis를 확인한 뒤, 캐시된 응답이 있으면 반환하는 방식입니다. 쾅, 일주일 후 캐시 히트율(cache hit rate)이 40%에 도달했고, 그에 따라 비용도 줄어들었습니다. 그것만으로도 월간 청구 금액의 약 30%를 절약할 수 있었습니다.

그 다음에는 스트리밍(streaming)을 추가했습니다. 솔직히 처음부터 이렇게 했어야 했습니다. 스트리밍 응답(streaming responses)은 사용자가 단어가 하나씩 나타나는 것을 보게 함으로써, 전체 응답이 생성될 때까지 기다리는 것보다 훨씬(WAY) 더 빠르게 느껴지게 합니다. 체감 지연 시간(perceived latency)은 "으, 이거 고장 난 건가?"에서 "오 와, 반응이 빠르네"로 바뀌었습니다. 기술적 지연 시간(technical latency)은 크게 변하지 않았습니다 — 평균 응답 시간 1.2초, 초당 320 토큰(tokens/sec)의 처리량(throughput) — 하지만 느껴지는 기분(FEEL)은 완전히 달랐습니다.

현재 설정 (The Good Stuff)

캐싱과 스트리밍이 적용된 업그레이드 버전입니다. 이것이 현재 실제로 프로덕션(production) 환경에서 실행되고 있는 코드입니다:

import openai
import os
import hashlib
...

이 버전은 제가 테스트해 온 몇 가지 다른 전략을 사용합니다. 캐싱은 간단합니다. 지원 관련 질문은 답변이 자주 바뀌지 않기 때문에 24시간 TTL(Time To Live)이 잘 작동하는 것 같습니다. 스트리밍은 빠릿빠릿한 느낌을 줍니다. 그리고 모델 선택(DeepSeek V4 Flash)은 비용을 관리 가능한 수준으로 유지해 줍니다.

수치 (Real Production Data)

좋습니다, 여러분이 원하실 것을 알기에 제 설정에서 나온 실제 수치들을 공유해 보겠습니다.

첫 번째 토큰(first token)까지의 평균 응답 시간은 약 1.2초이며, 생성 처리량(throughput)은 초당 320토큰(tokens/sec)입니다. 채팅용으로는 충분히 빠른 속도입니다. 사용자들은 이것과 "프리미엄" 모델 사이의 차이를 느끼지 못하지만, 제 지갑은 확실히 느낍니다.

DeepSeek V4 Flash의 품질은 견고합니다. 제 특정 사용 사례(use case) 기준으로 GPT-4o 수준의 약 84.6%에 달하는 벤치마크 점수를 확인하고 있습니다. 고객 지원(support) 용도로는 그것으로도 충분하고도 남습니다.

3. 단순한 질의에는 더 저렴한 모델을 사용하세요. 이것이 바로 다중 모델(multiple model) 전략이 진정으로 빛을 발하는 지점입니다. "설정 페이지가 어디인가요?"와 같은 기본적인 질문에는 GPT-4o가 필요하지 않습니다. 저렴하고 빠른 무언가가 필요할 뿐입니다. Global API에는 184개의 모델이 있으므로, 각 질의(query)에 적합한 모델을 선택할 수 있습니다. 솔직히 말해서, 이것은 엄청난(HUGE) 이점입니다. 저는 간단한 작업에는 100만 토큰당 입력 $0.20, 출력 $0.80인 GLM-4 Plus를 사용하며, 아주 잘 작동합니다.

4. 품질을 모니터링하세요. 비용만 보지 마세요. 사용자들이 실제로 만족하고 있는지를 추적해야 합니다. 저는 각 응답 후에 따봉(thumbs up/down) 버튼을 추가했는데, 그 데이터가 정말 금광과 같았습니다. 모델이 환각(hallucination)을 일으키고 있는지, 캐시(cache)가 오래된 정보(stale info)를 반환하고 있는지 등 모든 것을 알려줍니다.

5. 폴백 로직(fallback logic)을 구현하세요. 속도 제한(rate limits)은 발생하기 마련입니다. 서비스 제공업체(providers)가 다운될 수도 있습니다. 상황이 잘못되었을 때를 대비한 계획이 필요합니다. 저는 구성된 폴백 모델(fallback models) 목록을 가지고 있으며, 만약 DeepSeek V4 Flash가 실패하면 Qwen3-32B를 시도하고, 그다음에는 GLM-4 Plus를 시도합니다. 사용자는 차이를 전혀 느끼지 못하며, 저의 업타임(uptime)은 훨씬 더 좋아집니다.

6. 시스템을 유지하세요