AI Gateway 를 통한 실시간 모델 성능 지표 접근
요약
AI Gateway는 수백 개의 AI 모델에 대한 실시간 처리량(throughput) 및 지연 시간(latency) 성능 지표를 제공하여, 사용자가 최적의 모델을 선택할 수 있도록 돕습니다. 이 지표들은 '모델 목록', '개별 모델 페이지', 그리고 'REST API' 세 가지 경로에서 접근 가능하며, 실제 고객 요청 데이터를 기반으로 매시간 업데이트됩니다. 이를 통해 사용자들은 특정 사용 사례(예: 빠른 토큰 생성 vs. 낮은 첫 토큰 시간)에 가장 적합한 모델과 제공자 조합을 비교 분석할 수 있습니다.
핵심 포인트
- AI Gateway는 실시간 성능 지표(처리량 및 지연 시간)를 통해 모델 선택의 투명성을 높입니다.
- 모델 목록에서는 P50 지표를 기반으로 가장 최적화된 모델을 빠르게 비교할 수 있습니다.
- 개별 모델 페이지와 REST API를 사용하면 특정 제공자(provider)별 성능 분해 및 상세 데이터를 얻을 수 있어 심층 분석이 가능합니다.
- 지표는 실제 고객 요청 데이터에 기반하며, 매 1시간마다 업데이트되어 신뢰성을 유지합니다.
AI Gateway 는 이제 수백 개의 모델에 대한 처리량 (throughput) 과 지연 시간 (latency) 지표를 표시하여, 실시간 성능 데이터를 기반으로 적절한 모델을 선택할 수 있도록 지원합니다. 이 지표들은 세 가지 위치에서 나타나며, 매 1 시간마다 업데이트됩니다:
-
모델 목록 (Model list): AI Gateway 는 이제 지연 시간과 처리량을 정렬할 수 있는 열을 포함합니다. 각 행은 해당 모델이 가진 모든 제공자 (provider) 에서 가장 낮은 지연 시간과 가장 높은 처리량을 나타내는 최적의 P50 지표를 표시합니다. 이 지표들은 매 1 시간마다 업데이트되며, AI Gateway 의 실제 고객 요청을 기반으로 합니다. 처리량으로 정렬하여 가장 빠른 토큰 생성 속도를 찾거나, 지연 시간으로 정렬하여 첫 번째 토큰까지의 시간이 가장 짧은 모델을 찾을 수 있습니다.
-
개별 모델 페이지 (Individual model pages): AI Gateway 에서 해당 모델을 운송하는 모든 제공자에 대한 상세 분해 결과를 얻으려면 목록의 어떤 모델이나 개별 모델 페이지를 클릭하세요. 사용 기록이 있는 각 제공자에 대해 P50 지연 시간과 처리량을 볼 수 있습니다. 이는 동일한 모델에 대한 제공자 성능을 비교하고 사용 사례에 가장 적합한 옵션을 선택하는 데 도움이 됩니다.
-
REST API: 이 지표들은 프로그램적으로 REST API 엔드포인트를 통해 사용할 수도 있습니다. 관심 있는 모델의 [ai-gateway-string] creator/model-name 을 엔드포인트 URL 에 대입하여 사용합니다.
예를 들어, Cerebras 제공자의 zai/glm-4.7 모델에 대한 엔드포인트 출력은 다음과 같습니다:
- 최고 성능 (Best performance per model): P50 지연 시간과 처리량
- 모델 목록: 제공자별 성능 분해
- 모델 상세 페이지: 이동식 엔드포인트 성능 집계 (지연 시간과 처리량, P50/P95)
- REST API: 모델 목록 및 모델 상세 페이지 데이터 접근
AI 자동 생성 콘텐츠
본 콘텐츠는 Vercel AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기