AI 에이전트가 계속해서 API를 망가뜨리는 이유 (그리고 해결 방법)

며칠 전, 저는 Claude Code를 사용하여 매일의 ClickUp 스탠드업(standup) 업데이트를 Slack에 자동으로 게시하는 AI 에이전트를 구축하는 것에 대해 글을 썼습니다.

워크플로우는 놀라울 정도로 간단했습니다.

매일 아침 10시에 에이전트가 ClickUp에서 제 작업을 가져오고, AI를 사용하여 스탠드업 요약을 생성한 다음, 이를 Slack에 직접 게시합니다. 수동 작업도 없고, 업데이트를 복사하여 붙여넣을 필요도 없습니다. 그저 자동화가 제 역할을 수행할 뿐입니다.

그리고 솔직히 말해서, 아주 잘 작동했습니다.

하지만 이것을 구축하는 동안, 저는 데모 그 이상의 것을 생각하기 시작했습니다.

이 워크플로우가 향후 6개월 동안 매일 실행된다면 어떻게 될까요?

ClickUp 토큰이 만료되면 어떻게 될까요? Slack이 요청에 대해 속도 제한(rate limit)을 걸면 어떻게 될까요? 실행 도중에 네트워크가 끊기면 어떻게 될까요? AI가 유효하지 않은 페이로드(payload)를 생성하면 어떻게 될까요? 하나의 API는 성공했지만 다른 하나는 실패하면 어떻게 될까요?

그때 저는 중요한 사실을 깨달았습니다.

**AI 에이전트에서 가장 어려운 부분은 AI가 아닙니다.

바로 API입니다.**

데모는 성공했습니다. 프로덕션(Production)은 이야기가 다릅니다.

대부분의 AI 에이전트 데모는 익숙한 패턴을 따릅니다.

LLM을 몇 가지 도구에 연결하고, 워크플로우를 실행하고, 모든 것이 완벽하게 작동하는 것을 지켜본 다음, 스크린샷을 찍고 관련 게시물을 올립니다.

문제는 프로덕션 시스템은 '해피 패스(happy paths, 정상 경로)'로만 작동하지 않는다는 점입니다.

조만간 무언가 고장 나기 마련입니다.

Zendesk에서 지원 티켓을 읽고, Jira 이슈를 생성하며, Slack에 업데이트를 게시하는 에이전트를 상상해 보세요. 서류상으로는 간단해 보입니다.

첫 번째 실패가 발생하기 전까지는 말이죠.

밤사이에 API 토큰이 만료되었을 수도 있습니다.
Slack이 속도 제한(rate-limit) 에러를 반환할 수도 있습니다.
Jira가 새로운 필수 필드를 도입했을 수도 있습니다.
요청이 타임아웃(timeout)될 수도 있습니다.

여러분의 AI 에이전트는 여전히 자신이 무엇을 하고 싶은지 정확히 알고 있습니다.

**문제는 더 이상 추론(reasoning)이 아닙니다.

문제는 실행(execution)입니다.**

대부분의 AI 에이전트는 단 하나의 API 에러만으로 실패에 직면합니다

AI 에이전트에 관한 많은 논의는 의사 결정(decision-making)에 집중되어 있습니다.

모델이 어떤 도구를 사용해야 하는가?
다음에 어떤 행동을 취해야 하는가?
작업을 어떻게 추론하며 수행해야 하는가?

그것들은 중요한 질문들이지만, 일단 모델이 API를 호출하기로 결정하면 완전히 다른 범주의 문제들이 나타납니다.

인증 (Authentication)
속도 제한 (Rate limiting)
재시도 (Retries)
요청 검증 (Request validation)
응답 파싱 (Response parsing)
에러 처리 (Error handling)
로깅 (Logging)
모니터링 (Monitoring)

전통적인 소프트웨어 시스템은 이러한 문제들을 해결하기 위한 성숙한 인프라를 갖추고 있습니다. 하지만 대부분의 AI 에이전트 프로젝트는 그렇지 않습니다.

그리고 바로 그 지점에서 문제가 발생하기 시작합니다.

실제 워크플로우는 매우 다릅니다

사람들이 에이전트 워크플로우를 설명할 때, 보통 다음과 같이 그립니다:

ClickUp → AI → Slack

이해하기 쉽습니다.

하지만 실제 운영(Production) 시스템은 다음과 같은 모습에 훨씬 더 가깝습니다:

AI가 생성한 요약은 전체 워크플로우에서 종종 가장 쉬운 부분입니다.

어려운 부분은 API 호출을 둘러싼 모든 것들입니다.

AI 에이전트는 API 스키마를 추측하는 것을 좋아합니다

다양한 에이전트 프레임워크를 실험하며 제가 발견한 한 가지는, 모델들이 믿기 힘들 정도로 자신감이 넘친다는 점입니다.

때로는 너무 과할 정도입니다.

에이전트에게 익숙하지 않은 API를 주면, 다음과 같은 것을 생성할 수도 있습니다:

{
  "priority_level": "high",
  "ticket_category": "billing",
...

합리적으로 보입니다. 전문적으로 보입니다. API가 기대할 법한 모습 그대로입니다.

문제는 무엇일까요?

해당 필드들이 존재하지 않을 수 있습니다.
모델이 이를 추론해낸 것입니다.
API가 요청을 거부합니다.
에이전트는 자신이 모든 것을 올바르게 수행했다고 생각합니다.
API는 동의하지 않습니다.

통합(Integration)되는 서비스의 수가 늘어날수록, 이 문제는 더욱 흔하게 발생합니다.

더 많은 API는 더 많은 실패 지점을 의미합니다

단일 API 통합은 관리할 수 있습니다.

이제 다음과 같이 연결된 에이전트를 상상해 보세요:

각 서비스는 고유의 인증 흐름 (authentication flow), 요청 형식 (request format), 속도 제한 (rate limits), 에러 응답 (error responses), 재시도 정책 (retry policies), 그리고 예외 케이스 (edge cases)를 가지고 있습니다.

복잡성은 매우 빠르게 가중됩니다.

이것이 수많은 인상적인 AI 에이전트 데모들이 신뢰할 수 있는 프로덕션 시스템 (production systems)으로 전환되지 못하는 가장 큰 이유 중 하나입니다.

에이전트가 실패하는 이유는 추론 (reasoning)을 할 수 없기 때문이 아닙니다.

신뢰할 수 있는 API 실행 (API execution)이 보기보다 훨씬 더 어렵기 때문입니다.

AI와 API 사이의 누락된 계층

대부분의 개발자들은 에이전트 아키텍처 (agent architecture)를 다음과 같이 생각합니다:

LLM → API

하지만 실제로는 그 사이에 무언가가 있어야 합니다.

그러한 실행 계층 (execution layer) 없이는 모든 API 호출이 잠재적인 실패 지점이 됩니다.

결국 모델은 설계 단계에서 고려되지 않았던 일들까지 책임지게 됩니다.

그리고 바로 그 지점에서 신뢰성이 무너지기 시작합니다.

에이전트 워크플로 (Agent Workflows)를 구축하며 배운 점

ClickUp, Slack, GitHub, Stripe, HubSpot 및 수십 개의 다른 API를 연결하는 워크플로를 구축하면서, 저희는 계속해서 동일한 문제에 직면했습니다.

프롬프트 (prompt) 문제가 아닙니다.

추론 (reasoning) 문제도 아닙니다.

바로 실행 (execution) 문제입니다.

저희는 반복적으로 동일한 문제들을 해결하고 있는 자신을 발견했습니다:

인증 (authentication) 관리
API 계약 (API contracts) 이해
재시도 (retries) 처리
실패로부터의 복구 (recovering from failures)
실행 전 요청 검증 (validating requests)
에러 추적 및 디버깅 (tracking and debugging errors)

시간이 흐르면서, 저희가 똑같은 인프라 (infrastructure)를 계속해서 다시 만들고 있다는 사실이 명백해졌습니다.

그것이 저희가 Swytchcode를 만들기 시작한 이유 중 하나입니다.

에이전트에게 가공되지 않은 API 문서 (raw API documentation)를 제공하고 유효한 요청 (valid requests)을 생성하기를 바라는 대신, Swytchcode는 구조화된 계약 (structured contracts)과 관리된 실행 (managed execution)을 제공합니다.

목표는 에이전트를 더 똑똑하게 만드는 것이 아닙니다.

목표는 API 실행 (API execution)을 신뢰할 수 있게 만드는 것입니다.

AI 에이전트의 미래는 더 나은 프롬프트 (Prompts)에 있지 않습니다

매주 새로운 모델이 출시됩니다.

더 커진 컨텍스트 윈도우 (context windows).

더 나은 추론 (reasoning).

개선된 도구 호출 (tool calling).

낮아진 지연 시간 (latency).

이 모든 것들은 중요합니다.

하지만 실제 환경의 에이전트 워크플로우 (agent workflows)를 구축하면서, 저는 신뢰성 (reliability)이 지능 (intelligence)만큼이나 중요하다는 확신을 갖게 되었습니다.

훌륭한 결정을 내리지만 API 호출을 안정적으로 실행할 수 없는 AI 에이전트는 여전히 프로덕션 환경에 투입할 준비가 되지 않은 것입니다.

차세대 에이전트 인프라 (agent infrastructure)는 단순히 더 똑똑한 모델에 의해서만 정의되지 않을 것입니다.

그것은 신뢰할 수 있는 실행 (dependable execution)에 의해 정의될 것입니다.

마치며

제가 만든 ClickUp-to-Slack standup agent는 여전히 매일 아침 작동하고 있습니다.

워크플로우 자체는 단순합니다.

하지만 이를 구축하면서 오늘날 거의 모든 AI 에이전트 프로젝트에 존재하는 훨씬 더 큰 문제를 발견했습니다.

AI 에이전트는 생각할 수 없어서 실패하는 경우가 드뭅니다.

그들은 프로덕션 시스템 (production systems)이 무질서하기 때문에 실패합니다.

토큰 (Tokens)이 만료됩니다.

네트워크 (Networks)가 실패합니다.

속도 제한 (Rate limits)이 발생합니다.

API가 변경됩니다.

그리고 실제 환경의 시스템은 이 모든 것을 처리할 수 있는 인프라 (infrastructure)가 필요합니다.

만약 여러분이 오늘 AI 에이전트를 구축하고 있다면, 다음 모델 출시를 걱정하는 데 시간을 조금 줄이고, 여러분의 에이전트가 API 호출을 어떻게 실행하는지에 대해 생각하는 데 시간을 조금 더 쓰십시오.

그곳에 여전히 대부분의 어려운 문제들이 남아 있습니다.

리소스 (Resources)

더 많은 API 연동(API integrations)을 위해 swytchcode docs를 살펴보세요
시작하려면 swytchcode dashboard에 로그인하세요
빌드 중에 막히셨나요? 이 설정 뒤에 숨겨진 워크플로(workflow)를 보고 싶으신가요? 저희 Discord community에 참여하여 질문을 직접 남겨주세요
Swytchcode로 멋진 것을 만들고 계신가요? Discord에서 공유해 주세요. 여러분이 무엇을 만들고 있는지 정말 궁금합니다