Vercel헤드라인2026. 05. 16. 06:11

AI Gateway에서 비용, 지연 시간(Latency) 또는 처리량(Throughput) 기준으로 제공자 정렬하기

요약

AI Gateway에서 모델 제공자(Providers)를 비용, 첫 번째 토큰 생성 시간(TTFT), 또는 처리량(Throughput/TPS) 기준으로 명시적으로 정렬할 수 있게 되었습니다. 이 기능을 사용하면 요청 시점에 최적화된 지표에 따라 제공자를 라우팅하여, 비용 효율성이나 응답 속도 등 원하는 차원에 맞춰 워크로드를 최적화할 수 있습니다. 정렬 순위는 실시간으로 계산되므로, 가격 변동이나 새로운 제공자 추가가 코드 변경 없이 자동으로 반영되며, 사용된 지표 값과 라우팅 메타데이터를 통해 어떤 결정이 내려졌는지 투명하게 확인할 수 있습니다.

핵심 포인트

AI Gateway에서 비용('cost'), TTFT(Time to First Token), TPS(Tokens Per Second) 기준으로 제공자 정렬 가능
정렬 기준을 명시적으로 제어하여 워크로드의 최적화(비용, 속도, 처리량)를 달성할 수 있음
순위는 요청 시점에 계산되므로, 가격 변동이나 새로운 제공자가 자동으로 반영됨
라우팅 메타데이터에 어떤 제공자가 고려되었는지, 사용된 지표 값은 무엇인지 상세히 기록되어 투명성이 높음

이제 AI Gateway에서 모델 뒤에 있는 제공자(Providers)를 비용, 첫 번째 토큰 생성 시간(TTFT), 또는 처리량(TPS) 기준으로 정렬할 수 있습니다. 기본 제공자 순서는 제공자의 신뢰성, 모델 출력 품질, 비용 및 응답 속도를 혼합하여 결정됩니다. 이제 정렬 기준을 명시적으로 제어하기 위해 sort를 사용할 수 있습니다. 많은 제공자가 있고 비용이나 속도 차이가 눈에 띄는 모델의 경우, 원하는 차원에 맞춰 최적화하기 위해 sort를 사용할 수 있습니다. 순위는 요청 시점에 계산되므로, 새로 추가된 제공자, 가격 변동, 관찰된 지연 시간(Latency) 또는 처리량(Throughput)의 변화가 코드 변경 없이 자동으로 반영됩니다. sort providerOptions.gateway를 세 가지 값 중 하나로 설정하십시오. 선택한 지표에 맞춰 최적화되도록 보장하기 위해 사용합니다. 이 예시에서 AI Gateway는 서로 다른 가격을 가진 5개 이상의 GPT OSS 120B 제공자를 가지고 있으므로, 가장 낮은 가격의 제공자를 통해 라우팅하려는 요청에는 비용별 정렬이 유용한 옵션입니다. 제공자는 sort 순서대로 시도됩니다. 상위 순위의 제공자를 사용할 수 없는 경우에만 다음 제공자로 폴백(Fallback)됩니다. sort는 Zero Data Retention (ZDR)과 같은 다른 게이트웨이 라우팅 옵션과 호환됩니다. 아래 예시는 지연 시간(Latency)과 데이터 보존이 중요한 대화형 요청을 위해 sort를 사용합니다: AI Gateway는 데이터 보존이 없는(Zero Data Retention) 제공자만 필터링한 다음, 남은 제공자들을 첫 번째 토큰 생성 시간(TTFT) 기준으로 정렬합니다. deepseek/deepseek-v4-pro Deepseek V4 Pro 또한 :와 함께 구성할 수 있습니다: list에 나열된 제공자가 맨 앞으로 승격되며, 나머지 제공자는 요청된 정렬 기준을 따릅니다. sort order order를 통해 각 요청이 왜 해당 위치에 배치되었는지 정확히 확인할 수 있습니다. 모든 응답에는 라우팅 메타데이터 내에 어떤 제공자가 고려되었는지, 순위를 매기는 데 사용된 지표 값은 무엇인지, 시도된 순서는 어떠한지, 그리고 상태 저하로 인해 우선순위가 밀려난 제공자가 있는지 보여주는 블록이 포함됩니다. AI Gateway를 통한 정렬에 대한 자세한 정보는 문서를 참조하십시오.

문서 더 읽기

값	설명	방향	사용 시점
'cost'	제공자가 나열한 백만 토큰당 입력 가격 기준으로 정렬	낮은 가격 우선	대량의 비용 민감형 작업
'ttft'	첫 번째 토큰까지의 시간(Time to First Token, TTFT) 중앙값(ms) 기준으로 정렬	낮은 지연 시간(Latency) 우선	응답 속도가 중요한 지연 시간 민감형 워크로드
'tps'	초당 토큰 수(Tokens Per Second, TPS) 처리량 중앙값 기준으로 정렬	높은 처리량 우선	총 응답 시간이 가장 중요한 긴 출력 생성

기본 사용법
다른 라우팅 제어 기능과 결합하여 사용하십시오.
라우팅 결정 사항 검사하기

AI 자동 생성 콘텐츠

원문 바로가기

AI Gateway에서 비용, 지연 시간(Latency) 또는 처리량(Throughput) 기준으로 제공자 정렬하기

요약

핵심 포인트

댓글