Uber의 월 1,500달러 AI 한도는 AI 도구 가격 책정에 유용한 신호

AI 업체들이 지금의 토큰당 가격을 계속 유지할지, 아니면 중국발 경쟁 때문에 결국 내릴지 궁금함
많은 예산이 없는 개인들은 이미 DeepSeek 같은 중국 오픈 가중치 모델로 옮겨가고 있음
중국이 정말 업체들을 보조하는 건지, 아니면 추론 비용이 실제로 훨씬 낮은데 Anthropic/OpenAI가 향후 IPO를 위해 최대한 많이 받는 건지도 의문임

여러 모델이 오픈 가중치이고 보조할 이유가 없는 제3자 업체에서도 제공되므로, 이들의 추론 비용이 실제 원가에 가까울 만큼 낮다는 건 어느 정도 알 수 있음
선도 연구소들은 저가·중급 모델만큼은 높은 토큰당 가격을 내려야 할 듯함. Qwen, DeepSeek, Kimi, GLM 같은 중국 모델들이 적절한 실행 환경을 붙이면 비용 효율적인 대안이 될 만큼 “충분히 가까워졌기” 때문임
다만 같은 문제를 풀기 위해 더 많은 작업이 필요한 모델도 있으니, 당장 격차를 완전히 메울 필요는 없을 수 있음
그래도 가격은 어떤 방식으로든 내려갈 것 같고, 동시에 저렴한 중국 모델의 구독도 보조금이 들어간 상태일 가능성이 커서 시간이 갈수록 덜 후해질 듯함

Paul Kedrosky가 최근 말한 기간 불일치(duration mismatch) 가 한 측면임
토큰당 가격은 경쟁 압력이나 고객의 구형 저가 모델 사용 유인 때문에 시간이 지나며 내려가지만, 데이터센터는 매출이 시간이 지나며 늘어난다는 가정 아래 부채로 조달됨
그의 표현을 빌리면 “[AI 업체들은] 가치가 하락하는 상품으로 고정비를 갚고 있다”는 것임
한쪽에서는 토큰 매출이 내려가고, 다른 한쪽에서는 다음 프런티어 모델 학습 비용이 올라가며, 동시에 10년짜리 부채를 갚아야 함
0: https://youtu.be/wGZboZcSGDY?is=64GuKyqBh_4aSjTE

걱정할 필요 없이, 토큰 매출을 지키려고 중국 모델 금지 로비를 하면 될 것임
“문제를 더 키우는 건, 중국 연구소들이 이중용도 가능 모델을 오픈 가중치로 공개하는 경우가 많다는 점이다. 모델이 오픈 가중치가 되면 기존 안전장치도 제거될 수 있고, 그 안전장치가 막으려던 사이버 및 CBRN 오용을 포함해 악의적 목적을 가진 국가·비국가 행위자가 사용할 수 있게 된다” https://www.anthropic.com/research/2028-ai-leadership

오히려 올릴 가능성이 큼. NVidia는 GPU 하드웨어 가격이 적어도 2030년까지 내려가지 않을 거라고 했고, 전 세계적으로 팹 생산능력이 부족함

정상적인 미국 회사 대부분은 클라우드 기반 중국 AI 업체 사용을 막을 것임. 코드, 데이터, 개인정보 등이 전부 그쪽으로 전송되기 때문임

대기업들이 언제쯤 flash 모델도 다음 조건이면 충분히 잘 된다는 걸 깨달을지 궁금함

LLM에게 큰 변경을 요구하지 않기

모든 결과를 검토하고 올바른 방향을 짚어주기
큰 모델도 여전히 큰 변경에는 형편없고, 의심스러운 아키텍처를 만들며, 진지한 프로젝트라면 어차피 코드를 검토해야 함
어떤 모델이든 충분히 신경 쓰지 않으면 코드베이스는 금방 엉망이 됨
지침을 주며 반복하는 상황에서는 flash 모델이 10배 싸고 훨씬 빠른데 굳이 큰 모델을 쓸 이유가 있나 싶음. 큰 모델은 보안과 버그 감사에 쓰면 되고, 300줄 이하 변경에서는 원하는 코드 모양을 지시하면 flash 모델도 거의 비슷하게 동작함

꽤 단순함. 조직들은 엔지니어 1인당 월 1500달러 지출을 감당할 의향이 있고, 이 정도가 대부분의 풀타임 엔지니어에게 “일반적인” 사용량과 대략 맞아 보임
이 숫자가 크게 늘어나면, 제안한 것처럼 회사들이 flash 모델을 더 검토하기 시작할 것 같음

감당 가능한 가장 큰 최신 모델을 쓰는 게 쉬운 결정임
하지만 여기서 가장 중요한 다른 부분인 실행 환경(harness)을 놓치게 됨. 직접 만든 오케스트레이터로 계획/설계/코드/빌드/테스트를 수행하는 자율 파이프라인을 운영하고, 여러 단계에서 에이전트를 씀
단계마다 더 잘 맞는 모델이 다르고, LLM으로 단계 간 산출물을 평가함. 모든 작업에 Opus 4.8이 필요한 건 아님
실행 환경은 모델에 넣어야 할 것과 빼내야 할 것을 맞춰주는 발판을 제공하고, 어떤 모델이 어떤 일을 할지도 지정하게 해줌
주어진 토큰 예산에서 품질을 만드는 건 모델이 아니라 파이프라인임

모델이 어느 모델로 질의를 넘길지 스스로 판단해야 하는 범위가 궁금함
아니면 큰 모델이 쉬운 질문과 어려운 질문의 차이를 배워서 그에 맞게 과금할 수도 있지 않을까 싶음. 복잡도를 측정할 수 있다면 견적까지 낼 수도 있겠음
작은 모델은 작은 코딩 작업에 충분하지만, 큰 모델도 대부분의 경우 작업을 잘게 쪼갤 수 없는 이유는 잘 모르겠음

정말 공감함. 더 큰 모델들은 일을 과하게 복잡하게 만드는 습관도 있음

“LLM에게 큰 변경을 요구하지 않기”, “모든 걸 검토하고 방향을 잡아주기”는 경영진이 신경 쓰지 않음
그건 엔지니어링 문제가 되었고, 엔지니어가 해결해야 할 일로 밀려남

아직도 AI 코딩이 유행으로 끝날 거라고 믿는 사람이 왜 이렇게 많은지 모르겠음
시작된 지 2년도 안 됐는데 회사들이 이미 좌석당 수천 달러를 내고 있고, 월 5천 달러를 주는 곳도 알고 있음
어떤 도구가 아무것도 없는 상태에서 이렇게 빠르게 받아들여졌나 싶음

회사들이 이 지출을 통해 사람을 해고해 비용을 줄일 수 있다고 베팅하고 있기 때문임
지금 보이는 AI LLM 풀 리퀘스트들은 다른 사람에게 일을 더 만들 뿐이고, 이른바 “빌더”들은 새 대시보드와 데모할 기능으로 좋아 보이기만 함
하지만 코드 흐름에 대해 대화할 수 없고, 왜 어떤 것이 그렇게 되었는지 사고 과정을 물을 수도 없음
여러 사람의 경험이 반영되어 바닥부터 쌓인 게 아니라, 아무것도 없는 데서 물질화된 것처럼 나오며, 기본 분리도 없고 추상화도 거의 없음
아무도 만지고 싶어 하지 않음. 풀 리퀘스트는 너무 크고, 그 “작성자”들은 우리와 함께 온콜을 서지도 않음
영광은 다 가져가지만 실제 일은 하지 않음
집을 설계해놓고 건축가와 엔지니어에게 “이게 되게 만들어”라고 보내는 것과 비슷함

그건 결론이 안 따라오는 말임. “회사들이 이미 좌석당 수천 달러를 낸다”는 사실은 어떤 것이 유행인지 아닌지와 상관관계가 0임
회사들이 그렇게 행동하는 이유로 “AI 코딩이 유행이 아니기 때문”보다 훨씬 합리적인 설명이 많음

바이브 코딩 결과물은 어떤 때는 훌륭하지만, 어떤 때는 무언가를 깨뜨리고, 이미 여러 번 고친 걸 다시 망가뜨리기도 함
풀 리퀘스트는 너무 크고 아무도 그 난장판을 검토할 수 없으며, 배포했다면 온콜을 각오해야 함
나아질 수도 있고 아닐 수도 있는데, 아직은 모르겠음

이 사실들이 오히려 보이는 것과 다를 수 있다는 신호로 보임
너무 크고 너무 빨라서 안정적이라고 느껴지지 않음. 이 수준을 유지할 수도, 더 늘어날 수도, 더 정상적인 사용량과 예산 수준으로 내려갈 수도 있음

“AI 코딩은 유행이다”와 “모든 직원에게 무제한 토큰을 주고 재무적으로 순효과가 있는지조차 신경 쓰지 않는다” 사이에는 넓은 스펙트럼이 있음

월 100달러 구독을 쓰지만, 최근 30일 API 비용은 월 1700달러 정도임
사용 방식에 따라 크게 달라짐. 프롬프트로 상세 설계를 만들고, 그걸 작업 목록으로 나눈 뒤, 여러 에이전트에 넣으면 수천 달러는 아주 쉽게 태움
더 신중하게 쓰면서 한 번에 몇 개의 에이전트만 상호작용식으로 돌리고, 풀 리퀘스트 검토/이슈 해결/자동 정리/성능 최적화 등에 쓰면 1500달러 정도일 수 있음
단발성 질문을 더 나은 Stack Overflow처럼 던지는 정도라면 100달러보다 훨씬 아래임
요즘은 /goal에 빠졌는데, 검증 가능한 목표를 찾아 밤새 돌려두면 다음 날 아침 어디까지 갔는지 보는 게 크리스마스 아침 같음

월 1500달러면 좌석당 연 1만8000달러임
Microsoft와 Nvidia가 뭔가를 보고 있는지도 모르겠음
로컬 LLM을 돌릴 수 있는 128GB 머신이 5천~8천 달러라 해도 싸게 느껴짐. 초당 토큰 수가 아직 충분하지는 않지만 괜찮을 수도 있음
병목은 정말 코드가 아니라, Uber가 그 많은 돈을 써서 도대체 뭘 만들었고 그게 매출에 긍정적으로 어떤 의미 있는 영향을 줬느냐임

초당 토큰 수가 병목이 아니라는 건 잘 모르겠음. 대부분은 여전히 밤새 알아서 돌리기보다 AI 에이전트를 상호작용식으로 쓸 것 같음
개인적으로는 50 tok/s 아래는 완전히 못 쓸 수준임
어쨌든 사과와 오렌지 비교이기도 함. 오픈 가중치 모델의 추론은 꽤 싸고, Claude와 OpenAI가 DeepSeek나 OpenRouter의 여러 제공자에 비해 매우 높은 마진을 받을 수 있을 뿐임. 오픈 모델은 상품재이기 때문임

자체 온프레미스 모델을 돌리는 편이 훨씬 나음
노트북은 감가상각 자산이고, 규모의 경제도 없고, 사양이 고정되며, 모델을 최신으로 유지해야 하는 파편화된 장비군을 만들게 됨
전력 소비와 냉각 문제까지 생각하면 회사들이 왜 그 방향으로 갈지 정말 모르겠음

회사들은 결국 로컬 AI 서버를 살 것 같음
로컬 하드웨어는 1만 가지 방식으로 깨질 수 있는 복잡한 소프트웨어 스택을 돌릴 때 비싸짐
미래의 로컬 AI 서버들은 그냥 AI용 어떤 프로토콜로 통신하고 구석에 놓여 있을 것이며, 아무도 신경 쓰지 않을 듯함
그래도 여러 시스템 접근권한은 필요할 수 있어서 모르겠지만, 결국 누군가는 최신 오픈 모델 같은 걸 얹은 “상자 속 AI”를 제공할 것 같음

기본 주장에는 동의하지만, 월 1500달러어치 최신 로컬 AI를 돌리는 건 이미 만만치 않고, 그게 좌석 하나 기준이라는 점도 중요함
이는 24시간 365일 최소 20 tok/s를 생성하는 것과 같고, 실제로는 그보다 훨씬 클 가능성이 높음
오픈 가중치 모델은 평판 있는 서구 제공자를 통해 제공되더라도 독점 모델보다 훨씬 싸기 때문에, 같은 지출에 도달하려면 100 tok/s 이상이 필요할 수 있고, 이는 데이터센터 하드웨어 영역에 들어감
프로슈머 플랫폼에서 전자의 수치에는 도달할 수 있겠지만 아주 특수한 작업부하에서만 가능함. 에이전트형 작업부하에서 흔한 프리필에 많은 시간을 쓰는 경우 전망은 더 나쁨. 온프레미스 AI에서는 큰 제약이 되기 때문임

반드시 Uber가 무엇을 만들었느냐보다 생산성 향상이 핵심이라고 봄
엔지니어들이 AI 도구를 올바르게 쓰면 생산성을 크게 높일 수 있고, LLM을 주니어 또는 어소시에이트 엔지니어처럼 쓸 수 있음
월 1500달러는 그런 수준의 생산성에 비하면 훨씬 싸고, 사람 엔지니어를 고용하려면 훨씬 더 많이 냈어야 함

잠금 효과와 전환 비용이 점점 걱정됨
Claude를 1년 정도 쓰면서 그 안에 “지식”을 꽤 많이 쌓아둔 상태임
앞으로 Claude의 가격 대비 성능이 불리해지면 걱정될 듯함
저장소는 추론과 분리하는 분산형 해법을 생각하기 시작했지만, 현재로서는 Claude가 여전히 선택지임. 비슷한 걱정을 하는 사람이 있는지 궁금함

그 “지식”이 그냥 텍스트 파일 아닌가? 텍스트 파일을 복사하는 것만으로 서비스 간 전환을 쉽게 해왔음

내가 좋아하는 해법은 Cline 코딩 에이전트를 쓰는 것임. 열려 있고, 여러 제공자와 모델 사이를 쉽게 바꿀 수 있음

그 안의 지식이라는 게 뭔지 모르겠음
지식은 어디에 저장되는 건가?
내 지식은 보통 에이전트 밖의 계획 문서에 저장됨
그리고 각 에이전트 창은 어차피 정기적으로 보관함

직원이 자기 AI/LLM 예산을 쓰지 않으면 월급을 올려받을 수 있나?

아마 성과 부족으로 해고될 듯함

대기업에서 오픈 가중치 모델을 돌리기 위해 자가 호스팅을 하거나, 꼭 온프레미스가 아니더라도 GPU 서버를 빌리거나, together AI 같은 곳으로 호스팅하는 방식이 왜 더 흔하지 않은지 모르겠음
오픈 가중치 모델과 Opus, Gemini Pro 같은 프리미엄 모델을 써봤는데 후자가 조금 낫기는 해도, 가격 차이를 정당화할 정도는 전혀 아니었음
내가 써본 용도에서는 차이가 대체로 중요하지 않았고, 다른 사용자들도 비슷한 용도가 많을 거라고 봄

내 $WORK에서도 비슷한 논의를 막 했는데, 전통 금융사이자 NYSE 상장사이며 IT 전문성은 평균적인 회사 기준으로 보면 사고 과정은 이렇다고 봄
뛰어난 개발자/해커에게 강한 GPU 서버를 주고 돌릴 수 있는 모델을 마음대로 돌리게 하는 것과, 그런 플랫폼을 회사 전체 대상으로 유지하는 것은 전혀 다름
그런 모델을 이해하고 유지할 인력, 백엔드, 가용성 등을 챙겨야 하고, 그 인력은 보통 소프트웨어 개발자 급여보다 훨씬 높을 가능성이 큼
이런 추가 번거로움 때문에 최고급 외부 연구소에 돈을 내고 모두에게 합리적인 지출 한도를 붙이는 쪽이 더 쉬워짐

프리미엄 모델이 겨우 10% 더 낫더라도, 약 0.51T급 오픈 가중치 모델을 자가 호스팅하는 것보다 가격을 정당화할 수 있음
이런 거대한 랙의 이용률은 24시간 365일이 아닐 것이고, 대개 남는 연산으로 모델을 학습할 만큼 GPU 중심 조직도 아님
가격이 10만20만 달러 이상이고 수명이 약 2년이라면 재무적으로 정당화하기 어려움
자가 호스팅도 여러 개발자에게 상각하면 월 1000달러 정도가 쉽게 될 수 있고, 피크 시간에는 빡빡한 속도 제한이 생김
월 1500달러에서 1000달러를 뺀 500달러가 “AI 생산성” 10% 하락을 정당화할까? 대부분의 경우 아니라고 봄
단기적으로는 코딩 보조 모델을 꼭 자가 호스팅해야 할 아주 좋은 이유가 없다면, 상위 2~3개 코딩 보조 제공자가 더 나은 선택이라고 말하겠음
Claude Code 라이선스를 샀다고 해고된 사람은 없음

왜 더 흔해야 한다고 생각하는지 모르겠음
여러 사용자에게 GPU를 풀링해 제공하고, 보안 통제를 지키면서 문서와 데이터 레이크에 연결하는 것만 해도 만만치 않음
결국 그걸 관리할 팀에 돈을 내게 됨

개인용 머신에서 혼자 한 번 해본 것과, 계속 바뀌는 하드웨어와 소프트웨어 요구사항 속에서 3000명 직원에게 모델을 제공하는 것은 완전히 다른 계산임
데이터센터의 전용 하드웨어와 이를 운영할 전문가가 필요함
회사는 본업에 더해 조달, 자산, 비용 및 그 밖의 1000가지를 관리하는 방법을 알아내야 함
이미 그 모든 걸 해결한 곳이 누구겠나? AWS/Azure/OpenAI 등임

회사들이 일반적인 호스팅과 저장소 요구를 위해 데이터센터를 직접 만들지 않고 AWS, Azure 등에 올리는 것과 같은 이유임
하드웨어 유지와 서비스 운영 전문가 고용에는 돈이 듦
LLM 모델처럼 흔한 것에 대해, AWS로 바이트를 보내는 데 극도로 민감한 회사가 아니라면 자체 하드웨어로 모델을 제공할 이유가 전혀 없음

월 1500달러 한도라는 숫자보다, 그들이 어떤 한도에 도달했다는 사실이 더 흥미로움
내가 이야기한 대부분의 엔지니어링 팀은 개발자당 AI 지출이 얼마인지 모름. 통합 클라우드 청구서에 묻혀 있기 때문임
하드 캡은 두 가지 유용한 대화를 강제로 만들음. 어떤 워크플로가 API 호출을 정당화하고 어떤 건 로컬 추론이면 되는지, 그리고 산출물이 실제 생산성 지표와 비교되고 있는지임
그런 피드백 루프가 없으면 누가 토큰을 가장 빨리 태우는지 보는 경주가 될 뿐임

“도구당 월 1500달러 한도는 과소비에 대한 합리적인 정책 대응으로 보인다”와 “내 토큰 사용량은 Anthropic과 OpenAI 각각 월 1000달러 정도인데, 개인 구독자를 위한 후한 보조 플랜 덕분에 현재는 제공자당 100달러만 낸다”는 흐름이 다단계 판매 사업처럼 느껴짐
‘다이아몬드’들이 세미나에서 MLM을 홍보해 돈을 벌고, 밑바닥의 희망자들에게 “지금 AI 구독을 사는 게 인생의 승자가 될 단 한 번의 기회”라고 말하는 구조 같음 MLM vs LLM으로 FOMO를 만드는 무언가가 있는지도 모르겠음

Simon Willison은 LLM이 나온 뒤로 계속 그런 식임. 돈 받고 홍보하는 사람이라는 게 너무 노골적으로 보임

Uber의 월 1,500달러 AI 한도는 AI 도구 가격 책정에 유용한 신호

요약

핵심 포인트

댓글