Zapier를 AI 모델에 연결하기: 아무도 말해주지 않는 사실들

저는 약 4개월 전 코딩 부트캠프를 졸업했으며, 여전히 모든 것이 새롭게 느껴지는 단계에 있습니다. 지난주에 처음으로 AI 모델을 Zapier 워크플로우(workflow)에 실제로 연결해 보았는데, 솔직히 말씀드리면 이 인터넷의 한 구석이 얼마나 기묘하고 멋진 곳인지 전혀 몰랐습니다. 제가 발견한 것들을 여러분께 공유해 드릴게요. 특히 가격표를 확인했을 때 몇몇 부분은 정말 충격적이었거든요.

제가 어떻게 여기까지 오게 되었나

배경을 말씀드리자면 이렇습니다. 저는 친구의 이커머스(e-commerce) 스토어를 위한 작은 자동화 도구를 만들었습니다. 대단한 건 아니었어요. 누군가 문의 양식을 작성하면, Zapier가 이를 포착하여 데이터를 Google Sheet에 넣고 Slack으로 알림을 보내는 방식이었죠. 전형적인 작업입니다. 제 친구가 말했습니다. "멋지네, 그런데 그들이 쓴 내용을 요약해서 화가 난 말투인지도 알려줄 수 있어?" 저는 '물론이지, 그게 얼마나 어렵겠어?'라고 생각했습니다.

그렇게 저는 AI 모델을 찾아보게 되었고, 이 기술들이 실제 운영 환경(production)에서 어떻게 작동하는지에 대해 제가 거의 아무것도 모른다는 사실을 빠르게 깨달았습니다. 저는 그저 OpenAI에 가입하고, API 키를 Zapier에 넣기만 하면 끝나는 줄 알았습니다. 제 생각이 틀렸고, 그것을 알아가는 과정이 제가 이 글을 쓰는 이유 전체입니다.

저를 놀라게 한 첫 번째 사실

저를 진심으로 당황하게 만든 첫 번째 사실은 현재 얼마나 많은 모델이 나와 있는가였습니다. 저는 항상 AI를 "GPT 같은 것"이나 몇몇 경쟁 모델 정도로만 생각했습니다. 하지만 알고 보니 Global API라는 하나의 제공업체를 통해 실제로 호출할 수 있는 AI 모델이 184개나 있었습니다. 184개라니요. 저는 두 번이나 다시 확인해야 했습니다.

가격 범위 또한 엄청납니다. 어떤 모델들은 100만 토큰당 비용이 0.01달러에 불과한 반면, 다른 모델들은 100만 토큰당 무려 3.50달러까지 올라갑니다. "API"가 식당의 메뉴판을 의미한다고 생각했던 부트캠프 졸업생에게 이것은 엄청난 양이었습니다. 하지만 저를 정말 놀라게 한 부분은 이것입니다. 여러분은 작업에 적합한 모델을 무엇이든 선택할 수 있으며, 이를 위해 10개의 서로 다른 제공업체를 연결할 필요가 없다는 점입니다. 그것이 바로 Global API의 비결입니다. 하나의 기본 URL(Base URL), 하나의 API 키, 그리고 수많은 모델들입니다.

내가 진작 누군가에게 보여줬으면 좋았을 가격표

저는 저녁 내내 작은 비교표를 만드는 데 시간을 보냈습니다. 누군가 저에게 첫날부터 이것을 보여줬더라면 좋았을 것이기에, 여기에 그대로 쏟아내 보겠습니다. 이 모든 가격은 100만 토큰당 기준이며, 컨텍스트 윈도우 (Context Window)는 모델이 한 번에 얼마나 많은 양을 생각할 수 있는지를 알려줍니다.

DeepSeek V4 Flash — 입력(Input)은 0.27달러, 출력(Output)은 1.10달러이며, 컨텍스트 윈도우는 128K입니다. 이 모델은 빠르고 저렴합니다.
DeepSeek V4 Pro — 입력은 0.55달러, 출력은 2.20달러이며, 컨텍스트 윈도우는 200K입니다. 더 큰 두뇌, 더 높은 가격입니다.
Qwen3-32B — 입력은 0.30달러, 출력은 1.20달러이며, 컨텍스트 윈도우는 32K입니다. 탄탄한 중간 단계의 선택지입니다.
GLM-4 Plus — 입력은 0.20달러, 출력은 0.80달러이며, 컨텍스트 윈도우는 128K입니다. 저는 계속 이 모델로 돌아오게 됩니다.
GPT-4o — 입력은 2.50달러, 출력은 10.00달러이며, 컨텍스트 윈도우는 128K입니다. 크고 유명한 모델입니다.

이제 마지막 줄을 보세요. GPT-4o를 GLM-4 Plus와 비교해 보십시오. GPT-4o는 출력에 대해 10배 이상의 비용을 청구합니다. 10배라니요. 저는 충격을 받았습니다. 유명한 모델들이 대안 모델들과 가격 면에서 그렇게나 차이가 나는 줄 전혀 몰랐습니다. 게다가 중요한 점은, 더 저렴한 모델들이 벤치마크 (Benchmarks)에서 기본적으로 거의 동일한 점수를 받는 경우가 많다는 것입니다. 그 부분은 나중에 다루겠습니다.

실제로 연결하기 (코드 부분)

이 부분은 제가 가장 긴장했던 부분입니다. 왜냐하면 저는 여전히 백엔드 (Backend) 작업에 있어서는 다소 서툴기 때문입니다. 하지만 실제 코드는 커피 한 잔을 마신 후 머릿속에 다 담을 수 있을 정도로 충분히 짧다는 것이 밝혀졌습니다.

Global API를 대상으로 하는 OpenAI 클라이언트 라이브러리(client library)를 사용한 기본적인 Python 설정은 다음과 같습니다:

import openai
import os

...

이것이 말 그대로 전부입니다. openai 패키지를 임포트(import)하고, 베이스 URL(base URL)을 Global API로 지정한 뒤, 키(key)를 제공하고, 채팅 완료(chat completion) 호출을 하면 됩니다. 잠시 저를 혼란스럽게 했던 요령은 OpenAI 클라이언트 라이브러리를 사용하면서 실제로는 다른 서버와 통신한다는 점이었습니다. 이 점을 이해하고 나니 나머지는 쉽게 느껴졌습니다.

저의 Zapier 워크플로(workflow)를 위해서는 모델에게 감정(sentiment)을 감지하도록 요청하는 것과 같이 조금 더 유용한 것이 필요했습니다. 제가 결국 사용하게 된 약간 더 복잡한 예시는 다음과 같습니다:

import openai
import os

...

DeepSeek V4 Pro의 200K 컨텍스트(context) 덕분에 거대한 이메일 체인을 입력해도 모델이 과부하에 걸리지 않습니다. 이는 긴 고객 지원 스레드(support threads)에서 실행되는 Zap에게 매우 큰 장점입니다.

실제로 중요한 수치들

제가 마치 잘 아는 것처럼 계속해서 "벤치마크(benchmarks)"를 언급하고 있으니, 잠시 뒤로 물러나 설명하겠습니다. 벤치마크는 기본적으로 추론(reasoning), 수학(math), 코드(code), 언어(language)와 같은 작업에서 모델이 얼마나 잘 수행하는지를 점수화하는 테스트입니다. Global API 라인업에 대해 계속해서 언급되는 수치는 평균 벤치마크 점수 84.6%였습니다. 100%는 아니지만 상당히 높은 수치이며, 선택할 수 있는 다양한 모델들의 평균값입니다. 따라서 비용을 절감하기 위해 품질을 희생할 필요는 없습니다.

제가 다시 한번 눈여겨보게 만든 또 다른 수치는 비용 절감입니다. 일반적인 주장에 따르면, 이러한 종류의 플랫폼 워크로드(workload)를 위해 Global API를 사용하는 것은 유명한 대형 제공업체를 직접 이용하는 것보다 40%에서 65% 사이의 비용을 절감할 수 있다고 합니다. 절감액이 이렇게 극적일 줄은 몰랐습니다. 제 친구의 작은 상점이라면, 이는 아마도 취미 프로젝트와 실제로 고객에게 비용을 청구할 수 있는 사업 사이의 차이를 의미할 것입니다.

또한 처리량 (throughput)이라는 지표가 있는데, 이는 모델이 초당 얼마나 많은 토큰을 뱉어내는지(spits out)를 나타냅니다. 제가 확인한 수치는 초당 320 토큰이었으며, 평균 지연 시간 (latency)은 1.2초였습니다. 이는 Zapier가 트리거 (trigger)를 실행했을 때, 응답이 충분히 빠르게 돌아와서 아무도 지연을 느끼지 못한다는 것을 의미합니다. 자동화 (automations)를 구축하는 부트캠프 졸업생에게 이러한 속도는 마법사가 된 것 같은 기분과 화면이 로드되기를 영원히 기다리는 것 같은 기분 사이의 차이를 만듭니다.

내가 고생하며 배운 베스트 프랙티스 (Best Practices)

모든 것이 원활하게 작동하기 시작하기 전까지 저는 수많은 실수를 저질렀습니다. 여기 제가 첫날에 받았더라면 좋았을 팁들이 있습니다. 제가 지금 유창하게 구사할 수 있는 유일한 언어인 쉬운 영어로 작성했습니다.

가능한 모든 것을 캐싱 (Cache)하세요. 만약 동일한 사람이 연속으로 세 개의 메시지를 보낸다면, 모델이 그 사람의 첫 번째 메시지를 세 번 다시 읽게 만들지 마세요. 캐싱 (Cache)이란 "결과를 저장하여 다시 물어볼 필요가 없게 만드는 것"을 의미합니다. 캐시 적중률 (hit rate)이 40%라면, 즉 40%의 경우 모델을 호출할 필요조차 없다는 것은 실제 비용을 절감해 준다는 뜻입니다. 저는 이 분야에서 캐싱이 존재한다는 사실조차 몰랐습니다.

응답을 스트리밍 (Stream)하세요. 스트리밍 (Streaming)이란 모델이 생각을 마칠 때까지 기다리는 대신, 생각하는 즉시 단어들을 다시 보내기 시작하는 것을 의미합니다. 총 소요 시간이 동일하더라도 사용자에게는 훨씬 더 빠르게 느껴집니다. 인지된 지연 시간 (Perceived latency)은 정말 놀라운 요소입니다. 스트리밍을 추가하자 Slack 알림이 거의 즉각적인 것처럼 보였습니다.

단순한 작업에는 더 저렴한 모델을 사용하세요. Global API에는 GA-Economy라고 불리는 것이 있으며, 이를 단순한 쿼리 (queries)에 사용하면 비용을 50% 절감할 수 있습니다. 우체통에 가기 위해 스포츠카를 사용하지 마세요. 만약 작업이 "이것이 화가 난 상태인가 아닌가"를 판단하는 것이라면, 천재의 두뇌는 필요하지 않습니다.

가격뿐만 아니라 품질을 확인하세요. 사용자들이 출력 결과에 만족하는지 추적하세요. 만약 저렴한 모델이 계속해서 오답을 내놓는다면, 비용 절감은 아무런 의미가 없습니다. 저는 친구의 Slack 채널에 작은 피드백 양식을 만들어 두었는데, 이를 통해 가격이 동일함에도 불구하고 특정 모델이 다른 모델보다 고객 메시지 처리에 훨씬 더 뛰어나다는 것을 깨달을 수 있었습니다.

백업 플랜을 마련하세요. 때때로 속도 제한 (Rate Limit)에 걸릴 때가 있는데, 이는 서비스 제공자가 "잠시 속도를 줄여주세요, 친구"라고 말하는 상황입니다. 이런 일이 발생했을 때, 당신의 Zap이 단순히 충돌하여 메시지를 잃어버리는 것이 아니라 우아하게 실패 (fail gracefully)하도록 만들어야 합니다. 저는 메인 모델에서 오류가 발생할 경우 작동하는 폴백 모델 (Fallback Model)을 설정했습니다. Global API 통합 SDK (Unified SDK)를 사용하여 약 10분 정도 걸렸습니다. 참고로 이 설정 시간은 정말 실질적인 수치입니다. 3개월 전에는 SDK가 무엇인지도 몰랐던 사람으로서, 10분도 채 걸리지 않아 끝냈다는 것은 정말 말도 안 되는 일입니다.

제가 진행한 순서

이 분야가 처음이라 저를 따라 하고 싶은 분들을 위해, 제가 대략적으로 진행했던 순서를 정리해 드립니다. 이 내용이 여러분의 금요일 밤을 혼란 속에서 허비하지 않게 도와줄 수도 있습니다.

Global API에 가입하고 API 키를 발급받았습니다.
하드코딩된 메시지로 하나의 모델을 테스트하기 위한 아주 작은 Python 스크립트를 작성했습니다.
해당 스크립트를 실행하여 응답이 타당한지 확인했습니다.
모델 이름을 다른 것으로 교체하고 다시 실행하여 품질을 비교했습니다.
제가 중요하게 생각했던 실제 작업인 감성 분석 (Sentiment Analysis)을 수행하는 작은 함수를 만들었습니다.
그 함수를 Zapier의 "Code by Zapier" 단계에 넣었습니다.
폴백 모델과 간단한 에러 로그를 추가했습니다.
이를 배포하고 작동하는 모습을 지켜보며, 마치 마법사가 된 듯한 기분을 느꼈습니다.

첫날에 알았더라면 좋았을 한 가지

만약 제가 과거로 돌아가 과거의 저에게 한 가지만 말해줄 수 있다면, 그것은 바로 이것입니다: 당신이 선택하는 모델은 제품 상자에 적힌 브랜드 이름보다 훨씬 더 중요하다는 사실입니다. 시작할 당시에는 GPT-4o가 가장 유명하기 때문에 항상 정답일 것이라고 가정했습니다. 하지만 이 모든 과정을 거친 후, 저는 대부분의 작업에 DeepSeek V4 Flash와 GLM-4 Plus를 혼합하여 기본값으로 사용하며, 작업이 정말로 요구할 때만 비싼 모델을 사용합니다.

GPT-4o의 가격은 100만 토큰당 입력 $2.50, 출력 $10.00입니다. 어떤 작업에는 그만한 가치가 있습니다. 하지만 제가 현재 수행하는 대부분의 작업에는 과합니다(overkill). 모델을 전환함으로써 얻는 비용 절감은 실질적이며, 품질 저하는 제가 예상했던 것보다 훨씬 적습니다.

마무리하며

이것이