LangChain이 코딩 에이전트(Coding Agent)의 비용을 예측 가능하게 만든 방법

지난 몇 년 동안 AI 사용량은 예산에서 무시하기 쉬운 수준이었습니다. LangChain에서는 모델 사용이 주로 몇몇 팀에 국한되었고, 사용량은 예측 가능했으며, 월간 청구 금액도 관리 가능한 수준이었습니다.

하지만 지난 1년 사이, 몇 가지 현상이 동시에 발생하면서 상황이 달라졌습니다:

AI 사용이 몇몇 팀에서 회사 전체로 확대되었습니다.
가장 뛰어난 모델들의 가격이 더 비싸졌습니다.
에이전트(Agents)가 단일 작업을 완료하기 위해 수십 번의 모델 호출(model calls)을 쉽게 실행할 수 있을 정도로 강력해졌습니다.

그 결과, AI 지출은 이해하기 어려워졌고 실시간으로 제어하기도 힘들어졌습니다.

이러한 현상이 가장 극명하게 나타난 곳은 엔지니어링 부서였습니다. 코딩 에이전트를 집중적으로 사용하는 개발자 한 명이 누군가 알아차리기도 전에 주당 수천 달러의 비용을 발생시킬 수 있었습니다. 우리 경영진은 지출이 발생하는 즉시 확인하고, 팀 및 사용자별로 한도를 설정하며, 생산적인 업무를 방해하지 않으면서도 예기치 않은 폭주 사용(runaway usage)을 방지할 수 있는 방법이 필요했습니다.

LLM 게이트웨이 (LLM Gateway) 구현

비용 추적을 염두에 두고, 우리는 매일 사용하는 제품에 LangSmith LLM Gateway를 직접 구축했습니다. 즉각적인 목표는 간단했습니다. 코딩 에이전트에 의한 예기치 않은 비용 폭주를 방지하여 엔지니어링 부사장(VP of Engineering)과 재무 책임자(Head of Finance) 모두에게 안심을 주는 것이었습니다.

LangSmith LLM Gateway에서는 다음과 같은 여러 차원에서 예산을 설정할 수 있습니다:

조직 전체 (Organization-wide)
워크스페이스 (Workspace)
사용자 (User)
API 키 (API key)

우리는 모든 직원이 월간, 주간, 일간, 시간 단위로 도달할 수 있는 기본 예산을 설정해 두었으며, 더 높은 사용량이 필요한 프로젝트를 수행하는 사람들을 위해 예외를 설정할 수 있는 기능도 갖추고 있습니다.

우리는 중앙에서 제어할 수 있는 모든 곳에 게이트웨이를 적용했습니다: Claude Code, Codex 또는 LangChain Deep Agents를 통한 코딩 에이전트가 그 대상입니다. 회사 내의 모든 적격한 코딩 에이전트 호출은 LLM Gateway를 통해 실행되므로, 엔지니어링 경영진은 회사 전체의 지출 현황을 분 단위로 조망할 수 있습니다. 또한, 각 사용자가 직접 설정을 진행할 필요가 없도록 우리의 MDM을 통해 중앙에서 오케스트레이션(orchestrating)함으로써 구현이 용이하도록 만들었습니다.

“Gateway의 장점은 중앙 집중식 제어를 통해 대시보드를 열었을 때 수천 달러의 예상치 못한 청구서를 마주하지 않을 것이라는 확실성이 더 커진다는 점입니다. 중앙 차단/제어 지점을 통해 한도와 지출을 가시적으로 확인할 수 있습니다.” - Alex Lunev, LangChain 엔지니어링 부사장

비용 제어(Cost Controls)를 LangSmith 스택의 나머지 부분과 연결하기

Gateway는 비용 데이터가 AI 시스템의 나머지 부분과 연결될 때 가장 유용합니다.

LangSmith LLM Gateway는 LangSmith의 일부이기 때문에, 지출 제어(spend controls) 기능이 AI 애플리케이션을 관리하기 위해 우리가 이미 사용 중인 시스템들과 연결됩니다. Gateway 실행 건은 추적(trace)이 가능하며, 사용자 또는 키(key)별로 귀속시키고 프로덕션 데이터와 함께 분석할 수 있습니다.

이는 비용 데이터가 단순히 월간 청구서에 국한되지 않음을 의미합니다. 우리는 지출을 특정 에이전트(agent), 모델 호출(model calls), 트레이스(traces), 그리고 실패 모드(failure modes)와 연결할 수 있습니다. 또한 독립적인 프록시(proxy)를 중심으로 워크플로우를 새로 구축하는 대신, OAuth, 모델 관리(model management), 사용자 관리(user management)를 위해 기존의 LangSmith 제어 기능을 사용할 수 있습니다.

이는 또한 Gateway 데이터를 더 실행 가능하게(actionable) 만듭니다. 코딩 에이전트(coding agent)가 예상보다 많은 비용을 지출할 때, 우리는 트레이스를 조사하여 무슨 일이 일어났는지 이해하고, 평가(evaluations) 및 관측성(observability) 데이터를 사용하여 근본적인 에이전트 동작을 개선할 수 있습니다.

내부 출시(internal rollout)를 통해 배운 점과 제품에 반영된 방식

Gateway를 우리 자신에게 먼저 적용해 보면서, 청구(billing)와 라우팅(routing)이 서류상으로 보이는 모습과 실제 라이브 환경에서 동작하는 모습 사이의 간극을 발견했습니다. 우리가 다음에 어디에 투자할지를 결정짓는 데 영향을 준 세 가지 교훈은 다음과 같습니다:

모델 가격 책정은 정적인 표보다 더 복잡합니다. 조회 테이블(lookup table)은 빠르게 노후화되므로, 정확한 비용 회계(cost accounting)에는 캐싱(caching), 토큰 티어(token-tier)의 미묘한 차이, 그리고 빈번한 제공업체의 가격 변동이 반영되어야 합니다. 이로 인해 우리는 모델 가격 책정을 상수가 아닌 하나의 시스템으로 취급하게 되었습니다. 우리는 신뢰할 수 있는 비용을 유지하기 위해 계산 로직을 감사(auditing)하고 더욱 엄격한 업데이트 경로를 구축하고 있습니다.

모든 클라이언트가 Gateway를 통해 깔끔하게 라우팅되는 것은 아닙니다. 지원 방식은 앱마다, 그리고 관리 방식에 따라 다릅니다. 우리의 출시 과정에서 Cursor는 base-url 교체를 채팅(Chat) 기능에만 적용되는 사용자별 설정으로만 노출했으며, 이는 플랫폼 전체에 걸쳐 MDM(Mobile Device Management)을 통해 배포할 수 있는 형태가 아니었습니다. Claude Desktop의 경우 관리형 설정(managed config)을 통해서만 게이트웨이를 통과할 수 있었으나, 이를 활성화하면 앱이 표준 채팅 대신 로컬 에이전트(local agent)로 전환되었습니다(이 기능은 아직 초기 개발 단계입니다). 우리는 제공업체의 지원을 기다리는 대신, 트래픽이 Gateway를 통해 직접 흐를 수 없는 경우에도 지출을 파악할 수 있도록, Gateway가 캡처하는 부분과 나머지 엔터프라이즈 제공업체 설정(예: 월간 Claude 플랜)이 캡처하는 부분 사이의 차이(delta)를 측정하는 방식으로 접근 방식을 결정했습니다.

하드 리밋(Hard limits)에는 이를 둘러싼 워크플로우가 필요합니다. 여유 공간이 없는 상한선은 업무를 차단할 뿐입니다. 엔지니어들은 한도에 도달하기 훨씬 전부터 조기 경고를 받고 싶어 하며, 한도를 높일 수 있는 빠르고 감사 가능한(auditable) 방법을 원한다고 말했습니다. 이러한 피드백을 통해 리밋은 정적인 가드레일(guardrails)에서 하나의 워크플로우로 변모했습니다. 우리는 임계값(threshold) 이전에 단계별 알림(tiered alerting)을 추가하고 있으며, 지출 제어가 업무를 방해하지 않으면서 비즈니스를 보호할 수 있도록 기록(paper-trail)이 남는 예산 증액 요청 흐름을 탐색하고 있습니다.

Dogfooding(자사 제품 직접 사용)을 통해 가격 정확성, Gateway를 통해 라우팅할 수 없는 클라이언트의 유연한 처리, 지출 한도 관리 등을 포함한 추상적인 엣지 케이스(edge cases)들을 구체적인 제품 우선순위로 전환할 수 있었습니다.

결과

LangSmith LLM Gateway를 내부적으로 출시한 이후, 우리의 LLM 비용은 예산 범위 내에서 유지되고 있습니다.

더 큰 변화는 지출이 더 이상 월말이 되어서야 파악할 수 있는 것이 아니라는 점입니다. 엔지니어링 리더들은 사용량을 실시간으로 확인할 수 있고, 적절한 수준에서 한도를 설정할 수 있으며, 팀들이 예상치 못한 청구서 없이 코딩 에이전트 (Coding Agent)를 사용할 수 있는 유연성을 제공할 수 있습니다.

LangSmith LLM Gateway는 현재 프라이빗 베타 (private beta)로 운영 중입니다. 액세스 권한을 요청하려면 여기에서 신청하세요.

LangChain이 코딩 에이전트(Coding Agent)의 비용을 예측 가능하게 만든 방법

요약

핵심 포인트

LLM 게이트웨이 (LLM Gateway) 구현

비용 제어(Cost Controls)를 LangSmith 스택의 나머지 부분과 연결하기

내부 출시(internal rollout)를 통해 배운 점과 제품에 반영된 방식

결과

댓글