모델 라우팅(Model routing)은 AI 과다 지출을 해결하기 위한 방안이지만, OpenAI와 Anthropic에게는 문제가 될 수 있다

요약

기업들이 AI 비용 과다 지출을 해결하기 위해 작업 난이도에 따라 모델을 선택하는 '모델 라우팅' 도입을 가속화하고 있습니다. 이는 OpenAI와 Anthropic 같은 모델 제공사에게는 수익성 위협이 될 수 있으며, 기업들은 단순 활동량이 아닌 실제 ROI를 중시하는 방향으로 전환 중입니다.

핵심 포인트

모델 라우팅을 통해 비용 효율성을 5~10배 개선 가능
기업용 AI 사용량의 95%는 저렴한 모델로 대체 가능할 것으로 추정
Cisco 등 대기업은 막대한 토큰 비용 관리를 위해 예산 조정 중
Cognition은 실제 엔지니어링 시간 절감액을 보증하는 정책 발표

The fix for overspending on AI is a problem for OpenAI and Anthropic

CFO(최고재무책임자)와 이사회가 비효율적인 인공지능 (AI) 지출을 단속하기 시작하면서, 미국 기업들 사이에서 새로운 지출 규율이 자리 잡고 있습니다. 이러한 변화는 AI 관련 거래의 구도를 재편할 잠재력을 가지고 있습니다.

지난 2년 동안의 전략은 복잡성에 관계없이 가장 강력한 AI 모델을 기본값으로 설정하고 모든 쿼리 (query)를 해당 모델로 보내는 것이었습니다. 하지만 이제 AI 청구 비용이 예산을 훨씬 초과함에 따라, 기업들은 모든 작업에 실제로 최첨단 모델 (frontier model)이 필요한지 묻기 시작했습니다. AI 구축의 중심에 있는 두 명의 리더는 이번 주 CNBC에 해결책이 나타나고 있다고 말했습니다. 바로 모델 라우팅 (model routing)입니다.

라우팅 (routing)은 작업을 적절한 모델과 매칭하는 도구로, 어려운 문제는 비용이 많이 드는 최첨단 모델 (frontier models)로 보내고, 쉬운 문제는 더 저렴하고 빠른 대안 모델로 보내는 방식입니다.

코딩 에이전트 Devin을 만드는 Cognition의 CEO인 Scott Wu는 일상적인 업무에서의 이점이 엄청나다고 말했습니다. 그는 많은 상용구 (boilerplate) 작업의 경우, 해당 작업에 충분히 좋은 모델을 사용함으로써 기업들이 5배에서 10배 더 나은 비용 효율성을 얻을 수 있다고 설명했습니다.

오늘날 대부분의 기업은 라우팅을 전혀 사용하지 않고 있습니다. Glean의 CEO인 Arvind Jain은 기업용 AI 사용량의 약 95%가 더 저렴한 대안 모델로 쉽게 처리할 수 있는 작업임에도 불구하고 여전히 가장 비싼 최첨단 모델 (frontier models)에서 실행되고 있다고 추정했습니다. Wu는 모델에게 미국의 세 번째 대통령의 이름을 묻는 예를 들었습니다. 모델이 아무리 비싸더라도, 모두가 그가 Thomas Jefferson라고 답할 것입니다.

이러한 변화를 압박하는 요인은 거대 기술 기업들조차 놀라게 만든 비용 곡선입니다. Cisco의 최고 제품 책임자 (CPO)인 Jeetu Patel은 그 계산법을 제시했습니다. 직원 1인당 주당 토큰 (token) 사용량이 약 200달러라면, 이는 1인당 연간 약 10,000달러에 달합니다. 직원이 9만 명인 기업의 경우, 연간 9억 달러를 고려해야 합니다.

Patel은 Cisco가 자체 예산을 훨씬 초과했으며, 현재 3만 명의 엔지니어가 주로 AI로 작성된 제품을 만들고 있는 상황에서 조정을 해야 했다고 말했습니다. Cisco는 다른 지출보다 토큰 (tokens) 사용을 우선시하며 자원을 재배분했습니다.

AI 기업들도 이러한 불안감을 인지하고 있습니다.

Cognition은 소위 'AI 생산성 보장 (AI productivity guarantee)'이라고 부르는 정책을 발표했습니다. 만약 Devin이 고객이 지불하는 비용만큼의 엔지니어링 가치를 제공하지 못한다면, Cognition은 그 수준에 도달할 때까지 최대 1,000만 달러 규모의 사용 비용을 지원할 것입니다. Wu는 이를 업계의 고질적인 문제인 투자 대비 수익률 (ROI, return on investment)에 관한 소음들을 걷어내기 위한 방법으로 설명했습니다.

Wu는 Cognition이 소비된 토큰 (tokens) 수나 코드 라인 수와 같은 활동량을 측정하는 대신, 자사의 에이전트가 실제로 절감한 인간 엔지니어링 시간 (human engineering hours)을 추산하며, 해당 추산치를 환불로 보증한다고 말했습니다. 그는 수십억 개의 토큰을 소비하면서도 아무런 성과를 내지 못할 수 있다고 지적했습니다. 기업들은 활동 (activity)이 아닌 결과물 (output)을 지향해야 한다는 것입니다.

만약 기업들이 쉽고 양이 많은 작업들을 중국이나 다른 지역의 저렴한 오픈 소스 모델 (open-source models)로 돌리기 시작한다면, OpenAI와 Anthropic은 모든 작업에 대해 비용을 지급받지 못하게 됩니다. 그들은 오직 더 복잡한 작업들만 맡게 될 것입니다. 두 회사 모두 프리미엄 가격의 막대한 수요를 전제로 비즈니스를 구축해 왔으며, 이를 바탕으로 기업공개 (IPO)에 대한 기대치도 형성해 왔습니다.

Patel은 이것이 프런티어 연구소 (frontier labs)들을 몰락시키지는 않을 것이라고 생각하며, 최첨단 기술은 여전히 가치 있을 것이라고 말합니다. 하지만 그는 가격 모델이 변화할 것으로 보고 있습니다. 연구소들은 단순히 더 많은 비용을 청구하기보다는 모델이 사용되는 방식에 있어 더 효율적이어야 할 것이며, Patel은 이것이 업계 전반의 공동 노력을 이끌어낼 것이라고 예측합니다.

질문은 기업들이 AI 청구 비용이 상승함에 따라 지출을 계속 유지할 것인가 하는 점이었습니다. 이제 많은 기업이 단순히 현명하게 지출할 방법을 찾을 것으로 보입니다. 가격 결정권 (pricing power)이 프리미엄 AI를 판매하는 기업에서 이를 구매하는 기업으로 이동하고 있습니다.

프런티어 연구소들은 여전히 가장 어려운 작업에 대해 프리미엄을 누릴 것입니다. 하지만 나머지 작업들이 시장에서 차지하는 비중은 어느 정도일까요? 그 답이 선도적인 AI 기업들의 기업 가치 (valuations)를 결정하는 데 큰 역할을 할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

모델 라우팅(Model routing)은 AI 과다 지출을 해결하기 위한 방안이지만, OpenAI와 Anthropic에게는 문제가 될 수 있다

요약

핵심 포인트

댓글