내가 단일 AI 제공자에 의존하는 것을 그만둔 이유 (그리고 여러분도 할 수 있는 방법)

지난달 나의 AI 챗봇이 먹통이 되었습니다. 내 코드 때문이 아니라, OpenAI가 힘든 하루를 보내고 있었기 때문입니다. 사용자들은 에러 메시지를 보았습니다. 내 전화기는 쉴 새 없이 울려댔습니다. 나는 모든 것을 단일 제공자(single provider) 위에 구축해 두었고, 그들이 실수했을 때 나는 숨이 막혔습니다.

익숙한 상황인가요? 우리 모두는 GPT-4나 Claude의 마법을 좋아하지만, 그것들은 마법이 아닙니다. 그것들은 다운될 수도 있고, 속도 제한(rate-limit)을 걸 수도 있으며, 하룻밤 사이에 가격을 변경할 수도 있는 서비스입니다. 나는 어떤 상황에서도 계속 작업할 수 있는 방법이 필요했습니다. 내가 시도했던 것, 실패했던 것, 그리고 마침내 성공한 것을 소개합니다.

첫 번째 시도: 재시도 로직 (Retry Logic)

나의 첫 번째 생각은 간단했습니다. 지수 백오프 (exponential backoff)를 사용하여 재시도하는 것이었습니다. 구현하기 쉽지 않나요? 나는 모든 API 호출을 루프(loop)로 감쌌습니다:

import time

def call_with_retry(prompt, max_retries=3):
...

이 방식은 일시적인 장애 (transient failures)에는 도움이 되었지만, API 전체가 한 시간 동안 접속 불가능할 때는 재시도가 단지 에러를 지연시킬 뿐이었습니다. 내 앱은 여전히 다운된 상태였습니다. 나에게는 진짜 대안이 필요했습니다.

두 번째 시도: 응답 캐싱 (Caching Responses)

나는 일반적인 프롬프트(prompts)를 위한 로컬 캐시 (local cache)를 구축했습니다. 그것은 FAQ에는 효과적이었지만, 내 사용자들은 하루 종일 고유한 질문을 던집니다. 캐시 적중률 (cache hit rate)은 약 10%였습니다. 충분하지 않았습니다. 그리고 캐싱은 요약 (summarization)과 같은 실시간 기능에는 도움이 되지 않았습니다.

성공한 접근 방식: 멀티 제공자 폴백 (Multi-Provider Fallback)

나는 추상화 계층 (abstraction layer)을 만들기로 결정했습니다. 즉, 여러 AI 제공자를 순서대로 시도하는 클라이언트입니다. 첫 번째가 실패하면 두 번째로, 그다음 세 번째로, 응답을 받을 때까지 이동합니다. 이런 방식으로, 나는 단일 장애점 (single point of failure)에 절대 의존하지 않습니다.

다음은 내가 Python으로 구축한 것의 단순화된 버전입니다:

import time
from typing import List, Callable

...

이것은 화려하지 않습니다. 단순한 폴백 체인 (fallback chain)일 뿐입니다. 하지만 이것은 나의 신뢰성을 완전히 바꾸어 놓았습니다. 이제 OpenAI가 다운되면, 내 앱은 조용히 다음 제공자로 전환됩니다. 사용자는 에러를 전혀 보지 못합니다.

교훈과 트레이드오프 (Lessons Learned and Trade-offs)

비용 (Cost): 첫 번째 호출이 실패할 경우 여러 번의 API 호출에 대한 비용을 지불해야 합니다. 저는 짧은 타임아웃(3~5초)을 설정하고, 정말로 필요한 경우에만 폴백(Fallback)을 수행함으로써 이 문제를 완화합니다.
일관성 (Consistency): 서로 다른 제공자는 서로 다른 결과를 제공합니다. 동일한 프롬프트(Prompt)를 사용하더라도 GPT-4와 Claude는 의견이 다를 수 있습니다. 저의 사용 사례(요약)에서는 괜찮습니다. 하지만 코드 생성(Code generation)과 같은 작업의 경우에는 하나를 고수하며 공격적으로 캐싱(Caching)하는 것이 좋을 수 있습니다.
지연 시간 (Latency): 폴백은 지연을 추가합니다. 첫 번째 제공자가 빠르게 실패하는 경우(예: 401 Unauthorized), 전환은 즉각적입니다. 타임아웃이 발생하는 경우에는 전체 타임아웃 시간만큼 기다려야 합니다. 저는 타임아웃을 공격적으로 조정했습니다. 차라리 빠르게 실패하고 다음 시도를 하는 편을 택했습니다.
복잡성 (Complexity): 제공자가 많아진다는 것은 더 많은 API 키, 더 많은 라이브러리, 더 많은 모니터링 대상이 생긴다는 것을 의미합니다. 저는 최대 2~3개로 유지합니다.

다음에 한다면 다르게 할 점 (What I’d Do Differently Next Time)

저는 이 계층(Layer)을 첫날부터 구축했을 것입니다. 나중에 추가하는 것도 쉽지만, 사후에 끼워 맞추는 것은 매우 번거롭습니다. 또한, 서킷 브레이커(Circuit breaker)를 추가했을 것입니다. 만약 제공자가 연속으로 3번 실패하면, 1분 동안 해당 제공자를 건너뛰는 방식입니다. 이는 죽어 있는 서비스에 계속해서 요청을 보내는 것을 방지합니다.

또 다른 개선 사항은 병렬 시도(Parallel attempts)입니다. 순차적인 폴백 대신, 두 개의 제공자에 동시에 요청을 보내고 첫 번째 응답을 사용하는 방식입니다. 이는 지연 시간을 줄여주지만 비용은 두 배로 듭니다. 높은 신뢰성이 요구되는 시나리오에서는 그만한 가치가 있을 수 있습니다.

이 방식을 사용하지 말아야 할 때 (When Not to Do This)

여러분의 AI 기능이 중요하지 않은 경우(예: 기발한 인사말 생성기)라면 이 접근 방식은 과합니다. 하지만 고객 대상 챗봇이나 핵심 API의 경우에는 생명줄과 같습니다. 또한, 엄격한 SLA(Service Level Agreement)를 제공하는 제공자를 사용 중이고, 가끔 발생하는 다운타임을 좋은 UX 메시징으로 처리할 수 있다면, 아마 이 방식이 필요하지 않을 수도 있습니다.

마치며 (Final Thoughts)

AI 호출에 회복 탄력성(Resilience)을 구축하는 것은 완벽한 제공자를 찾는 것이 아니었습니다. 모든 제공자는 결국 실패할 것이라고 가정하는 것이었습니다. 다중 제공자 폴백(Multi-provider fallback) 기술은 단순하지만, 여러 차례 제 앱이 완전히 중단되는 상황으로부터 저를 구해냈습니다.

이제 궁금합니다. 여러분은 AI 제공자 장애(AI provider failures)를 처리하기 위해 어떤 설정을 사용하고 계신가요? 폴백(fallbacks)을 사용하시나요, 서킷 브레이커(circuit breakers)를 사용하시나요, 아니면 하나의 제공자를 완전히 신뢰하시나요? 댓글로 함께 논의해 봅시다.