GeekNews헤드라인2026. 06. 25. 10:57

Cafe24, LLM Router 공개

요약

Cafe24가 100개 이상의 LLM을 단일 API로 호출할 수 있는 통합 LLM 라우터 인프라를 공개했습니다. Auto Router와 Fallback 기능을 통해 최적의 모델을 자동 선택하며, 비용 절감과 개발 편의성을 극대화한 것이 특징입니다.

핵심 포인트

100개 이상의 모델을 OpenAI 호환 단일 API로 통합 호출 가능
Auto Router를 통한 작업 유형별 최적 모델 및 비용 자동 선택
장애 발생 시 즉시 대체 모델로 전환하는 Auto Fallback 지원
Semantic Cache 및 BYOK 모드로 토큰 비용과 데이터 통제권 확보
코드 재배포 없이 콘솔에서 설정을 변경하는 Preset 기능 제공

Claude, Gemini, Qwen, Llama, DeepSeek 등
100개 이상 모델을 단일 엔드포인트로 호출하는 통합 LLM 인프라
OpenAI 호환 단일 API를 제공해, Provider마다 다른 API 명세·재시도 로직·스트리밍 포맷을 따로 학습/유지할 필요 없음
Auto Router가 프롬프트를 분석해 코딩/추론/번역/창작 유형을 판별하고 최적 비용의 모델 자동 선택
예: "React 무한 스크롤 코드 만들어줘" → 코딩 감지 → claude-sonnet-4-6

Auto Fallback으로 장애·타임아웃 시 사전 정의된 대체 경로로 즉시 전환, 실패한 호출은 과금 제외(ZCI)

예: qwen3-72b → llama-3.3-70b → deepseek-v3

Provider Routing으로 비용·속도·처리량 기준에 맞춰 프로바이더 우선순위 설정 가능
BYOK(Bring Your Own Key) 모드로 보유 중인 OpenAI/Anthropic/Google 키를 그대로 등록해 비용 직접 통제 가능
Semantic Cache로 유사 질문은 LLM 호출 자체를 스킵해 토큰 비용 절감, 응답은 ms 단위 반환
Preset 기능으로 Primary 모델·System Prompt·Sampling·다단계 Fallback 체인을 묶어 저장, 호출은 한 줄이고 조정은 콘솔에서 처리해 코드 재배포 ZERO
Privacy & 거버넌스로 로그·모델 전달 데이터의 민감 정보(PII) 자동 마스킹 지원
Realtime Dashboard에서 요청·비용·토큰 추이, 모델별 비용 비중, 성공/실패 비율, 요청 단위 상세 로그 확인
Playground에서 코드 없이 모델별 응답 품질·속도·비용 즉시 비교

약정·구독 없는
크레딧 종량제, 월 기본요금 0원, 가입 즉시 무료 크레딧 제공, 원화 기반 과금 및 세금계산서 발행 지원

댓글과 토론

AI 자동 생성 콘텐츠

원문 바로가기