AI 에이전트 런타임에서 미지의 모델 가격 책정 시 'Fail Closed'가 이루어져야 하는 이유

문제점

미지의 모델 가격 책정 (Unknown model pricing)은 단순한 설정 문제처럼 보일 수 있습니다.

하지만 AI 에이전트에게 이는 런타임 실패 (runtime failure)로 이어질 수 있습니다.

기본적인 LLM 애플리케이션은 요청을 한 번 보내고 나중에 비용을 확인하면 됩니다.

AI 에이전트는 다릅니다.

에이전트는 다음과 같은 동작을 수행할 수 있습니다:

모델 호출 (call a model)
재시도 (retry)
도구 호출 (call tools)
컨텍스트 추가 (add more context)
모델 전환 (switch models)
여러 단계에 걸쳐 지속 (continue for many steps)
충돌 없이 서서히 실패 (fail slowly without crashing)

이는 단 한 번의 가격 책정 실수가 실행 과정 전체에 걸쳐 배수로 증폭될 수 있음을 의미합니다.

만약 런타임이 모델 가격을 알지 못한다면, 예산 (budget)을 안전하게 강제할 수 없습니다.

이것이 바로 미지의 모델 가격 책정 시, 제공자 API 호출이 실행되기 전에 'Fail Closed'가 이루어져야 하는 이유입니다.

"Fail Closed"의 의미

'Fail Closed'란 시스템이 안전한 결정을 내릴 수 없을 때 실행을 거부하는 것을 의미합니다.

이 경우, 결정해야 할 사항은 다음과 같습니다:

다음 제공자 호출을 허용해야 하는가?

런타임이 모델 가격을 알고 있다면, 비용을 추정하고 이를 실행 예산과 비교할 수 있습니다.

런타임이 모델 가격을 모른다면, 중단해야 합니다.

단순히 경고만 해서는 안 됩니다.

추측해서도 안 됩니다.

모델이 저렴할 것이라고 가정해서도 안 됩니다.

중단하고 구조화된 에러 (structured error)를 반환해야 합니다.

에이전트에게 이것이 더 중요한 이유

에이전트는 루프 (loops)입니다.

이것이 핵심적인 문제입니다.

가격 책정이 미지인 상태에서의 단일 모델 호출은 하나의 리스크입니다.

가격 책정이 미지인 상태에서의 에이전트 루프는 반복되는 리스크입니다.

에이전트는 누군가 알아차리기 전에 10번, 20번, 혹은 50번의 호출을 수행할 수도 있습니다.

실패는 다음과 같은 단순한 원인에서 발생할 수 있습니다:

모델 이름의 오타
변경 된 제공자 별칭 (provider alias)
더 비싼 폴백 모델 (fallback model)
예기치 않은 모델 문자열을 전달하는 래퍼 (wrapper)
운영 환경과 다른 개발 환경 설정
가격 메타데이터 없이 추가된 새로운 모델

이 중 어느 것도 극적인 상황은 아닙니다.

하지만 비용 실패는 대개 극적이지 않습니다.

그것은 너무 오랫동안 지속되는 지루한 런타임 실수일 뿐입니다.

예산 가드 (Budget guards)에는 신뢰할 수 있는 입력값이 필요합니다.

예산 가드는 가격 메타데이터 (pricing metadata)에 의존합니다.

제공자 호출 전에, 런타임은 다음과 같은 질문에 답하려고 시도할 것입니다:

어떤 모델이 사용되고 있는가?
입력 비용 (input cost)의 추정치는 얼마인가?
출력 비용 (output cost)의 추정치는 얼마인가?
이번 실행 (run)을 위해 남은 예산은 얼마인가?
이 호출을 허용해야 하는가?

가격 정보 (pricing)가 누락되면, 예산 결정의 근거가 약해집니다.

TypeScript 중심의 개념으로 설명하면 다음과 같습니다:

const decision = guard.beforeCall({
runId,
model,
inputTokens,
maxOutputTokens,
budget,
});

if (!decision.allowed) {
throw decision.error;
}

const result = await provider.call({
model,
messages,
});

중요한 부분은 배치(placement)입니다.

가드 (guard)는 제공자 호출 (provider call) 전에 실행됩니다.

모델 가격을 알 수 없는 경우, 비용이 발생하기 전에 실행이 중단됩니다.

대시보드가 너무 늦은 이유

제공자 대시보드 (Provider dashboards)는 유용합니다.

결제 대시보드 (Billing dashboards)도 유용합니다.

로그 (Logs)와 트레이스 (traces)도 유용합니다.

하지만 이들은 대개 실행이 끝난 후에 다음과 같은 질문에 답합니다:

무슨 일이 일어났는가?

런타임 가드 (Runtime guards)는 다른 질문에 답합니다:

다음 호출이 일어나야 하는가?

AI 에이전트에게는 이 두 번째 질문이 매우 중요합니다.

제공자 호출이 실행되는 순간, 비용은 이미 발생한 것입니다.

대시보드는 실수를 이해하는 데 도움을 줄 수 있습니다.

호출 전 런타임 가드는 실수가 계속되는 것을 방지할 수 있습니다.

더 안전한 기본값

안전한 모델 가격 책정 규칙은 간단할 수 있습니다:

if (!pricingCatalog.has(model)) {
throw new UnknownModelPricingError(model);
}

이것은 복잡하지 않습니다.

그것이 핵심입니다.

런타임은 명백한 비용 모호성 (cost ambiguity)을 피하기 위해 고도의 추론을 할 필요가 없어야 합니다.

가격을 알 수 없다면, 호출을 진행해서는 안 됩니다.

그러면 개발자가 가격 메타데이터 (pricing metadata)를 추가하거나, 모델 이름을 수정하거나, 명시적으로 설정을 변경할 수 있습니다.

이는 소리 없이 추측하는 것보다 훨씬 낫습니다.

AI CostGuard가 위치하는 곳

이것은 제가 AI CostGuard에 구축하고 있는 체크 항목 중 하나입니다.

AI CostGuard는 AI 에이전트를 위한 로컬 퍼스트 (local-first) TypeScript / Node.js 런타임 안전 계층 (runtime safety layer)입니다.

제공자 API 호출이 실행되기 전에 비용 및 루프 실패 (loop failures)를 포착하도록 설계되었습니다.

다음 사항에 집중합니다:

재시도 폭풍 (retry storm) 감지
유사 프롬프트 루프 (similar prompt loop) 감지
미지의 모델 가격 책정 (unknown model pricing) 차단
최대 단계 (max-step) 보호
예산 가드 (budget guards)
미들웨어 (middleware) 및 래퍼 (wrappers)
구조화된 에러 (structured errors)

이것은 과금 원장 (billing ledger)이 아닙니다.

이것은 엄격한 보안 경계 (hard security boundary)가 아닙니다.

이것은 엔터프라이즈 방화벽 (enterprise firewall)도 아닙니다.

이것은 AI 에이전트의 비용 및 루프 실패를 방지하기 위한 호출 전 런타임 킬 스위치 (pre-call runtime kill switch)입니다.

npm 패키지는 @salimassili/ai-costguard 입니다.

핵심 요약 (The takeaway)

AI 에이전트 비용 제어에는 지루할 정도로 확실한 규칙이 필요합니다.

모델을 파악하십시오.

가격을 파악하십시오.

예산을 설정하십시오.

단계를 제한하십시오.

루프를 감지하십시오.

재시도 폭풍 (retry storms)을 중단하십시오.

구조화된 에러 (structured errors)를 반환하십시오.

미지의 가격 책정은 해롭지 않은 경고로 취급되어서는 안 됩니다.

에이전트의 경우, 미지의 가격 책정은 제공자 호출 (provider call)이 실행되기 전에 'Fail Closed' 되어야 합니다.
https://github.com/salimassili62-afk/ai-costguard

AI 에이전트 런타임에서 미지의 모델 가격 책정 시 'Fail Closed'가 이루어져야 하는 이유

요약

핵심 포인트

댓글