저가형 AI + 인간 조합은 미국의 하이엔드 AI보다 저렴한가

같은 작업을 시킨다면, 어느 쪽이 더 저렴할까.

미국의 frontier 모델에 그대로 던진다
DeepSeek와 같은 저가격 모델을 사용하고, 인간이 판단·수정·검수를 한다

SignalBloom AI의 기사 「Outsourcing plus LocalAI will soon become more economical vs Frontier labs」는 이 질문을 상당히 거칠게, 하지만 중요한 방향으로 몰아붙이고 있다.

요점은 다음과 같다.

frontier 모델의 추론 단가는 계속 내려간다고 보장할 수 없다
DeepSeek와 같은 저가격 모델과의 단가 차이는 캐시(Cache)를 포함하더라도 크다
그 차이가 크다면, 저렴한 모델에 인간의 판단을 더하는 것이 기업 입장에서 경제적일 가능성이 있다
결과적으로, 저렴한 모델 + 인간의 조합이 frontier lab의 가격 상한선이 된다

이 기사에서는 그 주장을 그대로 소개할 뿐만 아니라, 한 단계 더 실무적인 관점으로 분해해 본다.

결론부터 말하자면, "AI 단독의 똑똑함"이 아니라 "수락된 결과물 1개당 총비용"으로 보면, 저가형 AI + 인간 조합은 상당히 강력하다. 단, 모든 작업에서 승리하는 것은 아니다. 승리하는 영역은 태스크(Task) 양이 많고, 실패를 인간이 저렴하게 수정할 수 있으며, 속도보다 단가가 중요한 영역이다.

비교 단위를 틀리면 논점이 어긋난다

LLM의 요금표를 보면, 무심코 "100만 토큰당 몇 달러인가"로 비교하고 싶어진다.

하지만 실무에서 구매하는 것은 토큰이 아니다. 구매하는 것은 리뷰가 완료된 코드, 조사 메모, 영업 리스트, 번역된 문서, 테스트가 완료된 수정 PR(Pull Request)이다.

즉, 비교 단위는 이것이다.

수락된 결과물 1개당 총비용
= 모델 비용 + 인건비 + 리뷰 비용 + 재작업 비용 + 리스크 비용

이 식을 적용하면, "frontier 모델이 똑똑하니까 비싸도 이긴다"라는 이야기나 "DeepSeek가 싸니까 반드시 이긴다"라는 이야기 모두 성급하다는 것을 알 수 있다.

우선, 토큰 단가 차이는 매우 크다

2026년 5월 27일 시점의 공식 가격을 사용한다.

모델	입력	캐시 입력	출력	출처
OpenAI `gpt-5.5`	$5.00 / 1M	$0.50 / 1M	$30.00 / 1M	OpenAI API pricing
Anthropic Claude Opus 4.7	$5.00 / 1M	$0.50 / 1M	$25.00 / 1M	Claude API pricing
DeepSeek `deepseek-chat`	$0.27 / 1M cache miss	$0.07 / 1M cache hit	$1.10 / 1M	DeepSeek pricing
Google `gemini-3.1-flash-lite`	$0.25 / 1M	$0.025 / 1M	$1.50 / 1M	Gemini API pricing

여기서 agentic coding이나 조사 태스크에 가까운 거친 단위를 설정한다.

1 agentic unit = 입력 100만 tokens + 출력 5만 tokens

SignalBloom의 기사도 입력이 대부분이고 출력이 5% 정도라는 전제를 두고 있다. 긴 코드베이스를 읽거나, 검색 결과를 읽거나, 로그를 읽거나, 과거의 대화를 읽는 루프(Loop)에서는 체감상으로도 근접한 전제다.

캐시 히트율(Cache hit rate)을 다음과 같이 설정한다.

계통	캐시 히트율
OpenAI / Anthropic	85%
DeepSeek	88%

이때의 개산(Rough estimate)은 다음과 같다.

모델	1 agentic unit의 개산
OpenAI `gpt-5.5`	약 $2.68
Anthropic Claude Opus 4.7	약 $2.65
DeepSeek `deepseek-chat`	약 $0.15

단순 계산으로는 DeepSeek가 frontier 모델의 약 18분의 1이다.

물론 저렴한 모델은 동일한 품질에 도달하기 위해 토큰을 더 많이 사용할 수도 있다. 설령 DeepSeek가 5배의 토큰을 사용한다고 해도 여전히 $0.75 정도다. 10배를 사용해도 $1.50 정도다.

이 차이가 바로 SignalBloom 기사의 핵심인 "가격 상한(Price Ceiling)" 이야기입니다. frontier lab이 가격을 너무 높게 책정하면, 기업들은 "인간 + 저렴한 모델"로 도망칠 수 있습니다.

단, 인간을 추가하는 순간 고정비가 발생한다

DeepSeek가 저렴하더라도 인간은 무료가 아닙니다. 만약 월 $3,000의 엔지니어, 리서처, 업무 오퍼레이터를 배치한다고 가정해 봅시다.

OpenAI gpt-5.5와 DeepSeek의 차이를 1 agentic unit당 약 $2.53이라고 가정하면, 단순한 손익분기점은 다음과 같습니다.

$3,000 / $2.53 = 약 1,186 agentic units / 월

즉, 한 달에 약 12억 개의 input tokens + 약 5,900만 개의 output tokens 정도를 사용하는 규모가 되어야 비로소 "토큰 단가 차이만으로 인간의 월간 비용을 흡수할 수 있다"는 뜻입니다.

이 숫자만 보면 "대부분의 회사는 frontier 모델이면 충분하지 않을까?"라고 생각할 수도 있습니다.

하지만 현실은 조금 더 복잡합니다.

인간은 비용이 아니라, 실패율을 낮추는 부품이기도 하다

인간 + 초저가 AI의 가치는 토큰 단가 차이만이 아닙니다. 오히려 강점은 여기에 있습니다.

frontier 모델에만 의존하면 다음과 같은 비용이 보이지 않게 됩니다.

실패한 출력을 누가 감지할 것인가
잘못된 상태로 진행되어 발생한 재작업(rework)을 누가 흡수할 것인가
사내 맥락, 고객 맥락, 과거의 의사결정을 누가 기억하고 있는가
"이것은 아직 증거가 부족하다"라고 누가 제동을 걸 것인가

SignalBloom의 기사는 AI 에이전트가 태스크 처리 능력은 강해지고 있는 반면, 자율성에 필요한 장기 기억, 자기 인식, 증거 충족 판단 등은 아직 약하다고 정리하고 있습니다. 이 지점은 매우 중요합니다.

제 관점에서 저가형 AI + 인간의 본질은 "저렴한 추론"이 아니라, 인간을 추론 외부에 있는 품질 보증(Quality Assurance) 레이어로 사용할 수 있다는 점입니다.

같은 작업이라도 승리 조건이 다르다

대략적으로 나누면 다음과 같습니다.

작업 유형	가성비가 나오기 쉬운 선택
사양이 명확한 대량 처리	저가형 AI + 인간
...

여기서 중요한 것은 "미국 하이엔드 AI vs 중국 저가형 AI"라는 단순한 국가 간 대립이 아니라는 점입니다.

실제로는 다음과 같은 라우팅(routing) 문제입니다.

기업이 최종적으로 원하는 것은 단 하나의 최강 모델이 아닙니다. 태스크마다 저렴한 모델, 빠른 모델, 강력한 모델, 그리고 인간의 리뷰를 전환하며 운영하는 것입니다.

frontier 모델만이 승리하는 상황

frontier 모델이 비싸니까 필요 없다는 이야기가 아닙니다.

오히려 다음과 같은 상황에서는 높은 모델을 사용하는 것이 더 저렴합니다.

1. 인간의 시간이 더 비싼 경우

시니어 엔지니어가 30분 동안 고민하는 것보다, $5의 추가 추론을 통해 정답에 가까워질 수 있다면 frontier 모델을 쓰는 것이 더 저렴합니다.

특히 설계, 어려운 버그 수정, 보안 리뷰, 추상도가 높은 문장 편집에서는 실패한 출력을 검수하는 비용이 매우 큽니다. 저렴한 모델로 10번 다시 하는 것보다, 강력한 모델로 2번 안에 끝내는 것이 더 저렴해집니다.

2. 태스크 양이 적은 경우

인간을 월급제로 고용할 만큼 양이 많지 않다면 고정비를 회수할 수 없습니다.

소량의 고난도 태스크에서는 frontier API를 사용하는 것이 회계상 더 가볍습니다. 이는 개인 개발자나 소규모 팀일수록 해당되는 이야기입니다.

3. 오류 감지가 어려운 경우

"출력이 그럴싸해 보이지만 맞는지 모르겠다"는 태스크에서는 저렴한 모델일수록 위험합니다.

법률, 의료, 회계, 보안, 투자 판단, 계약 검토와 같이 오류 감지에 전문 지식이 필요한 경우, 저가형 모델로 대량 생성할수록 후속 공정의 부담이 커집니다.

저가형 AI + 인간이 승리하는 상황

반대로, 다음 조건이 갖춰지면 저가형 모델이 강력합니다.

1. 업무를 분해할 수 있는 경우

"요건 읽기", "후보 도출", "테스트 작성", "차이점 확인", "표로 정리"와 같이 작업을 작게 쪼갤 수 있을수록 저렴한 모델을 사용하기 쉽습니다.

인간은 모든 것을 수작업하는 대신, 분해, 판단, 검수, 예외 처리 등에 집중할 수 있습니다.

2. 정답을 외부에서 검증할 수 있는 경우

코드라면 테스트, 데이터 추출이라면 샘플 검사, 번역이라면 용어집, 영업 리스트라면 외부 DB를 통해 검증할 수 있습니다.

검증기(verifier)가 존재하는 영역에서는 모델의 지능보다 "저렴하게 대량으로 시도할 수 있다는 점"이 효과적입니다.

3. 인간이 맥락을 가지고 있는 경우

AI가 어려워하는 것은 사내의 암묵지, 고객별 선호도, 과거의 실패 사례, 정치적인 판단입니다.

인간이 이러한 맥락을 가지고 있다면, 모델의 프론티어 (frontier) 수준에 대한 요구치는 낮아집니다. 인간이 "이것은 틀렸다", "이 방향이 맞다", "이 부분만 고치면 쓸 수 있다"라고 판단할 수 있기 때문입니다.

나라면 이렇게 설계한다

갑자기 "DeepSeek에 전부 맡기기"도 아니고 "OpenAI만 사용하기"도 아닌, 3계층으로 구성합니다.

레이어	역할	모델 예시
Cheap	대량의 초안 작성, 분류, 정형화, 후보 생성	DeepSeek, Gemini Flash-Lite, 로컬 모델
...

중요한 것은, Cheap 레이어에서 만든 것을 그대로 실무(production)에 흘려보내지 않는 것입니다.

이렇게 구성하면, 프론티어 (frontier) 모델은 "상시 사용하는 고급 엔진"이 아니라, "난관에 부딪혔을 때만 사용하는 에스컬레이션 (escalation) 대상"이 됩니다.

가격 상한선은 확실히 존재한다

SignalBloom 기사에서 가장 흥미로운 점은 DeepSeek 자체의 저렴함이 아닙니다.

흥미로운 점은, 프론티어 랩 (frontier lab)이 자유롭게 가격을 올릴 수 있는 시장이 아니게 되었다는 관점입니다.

기업의 AI 예산이 커질수록, CFO는 다음과 같이 생각합니다.

이 태스크가 정말로 최고급 모델일 필요가 있는가
저렴한 모델로 80점을 내고, 인간이 90점으로 올리는 것이 더 저렴하지 않은가
모델을 고정하지 않고, 태스크별로 라우팅 (routing)할 수 없는가
추론 비용이 인건비나 SaaS 비용을 잠식하기 시작하지 않았는가

이러한 질문이 나오는 순간, 프론티어 랩 (frontier lab)의 가격에는 상한선이 생깁니다.

비싼 모델은 남을 것입니다. 다만, 모든 태스크에 사용되지는 않게 됩니다. 비싼 모델은 "난관", "고위험", "고부가가치" 영역으로 밀려나고, 일상적인 대량 처리는 저렴한 모델과 인간의 운영 (operation)으로 흘러갑니다.

결론

초저가 중국 AI + 인간의 협업이 미국의 하이엔드 AI 단독 사용에 대해 항상 승리하는 것은 아닙니다.

하지만 다음 조건에서는 상당히 승리하기 쉽습니다.

월간 태스크 양이 많다
작업을 작게 분해할 수 있다
테스트나 규칙으로 검증할 수 있다
인간이 맥락과 품질 기준을 가지고 있다
속도보다 단가가 중요하다
실패 시 재작업 (rework) 범위가 한정적이다

반면, 소량·고난도·고위험·검증이 어려운 태스크에서는 프론티어 (frontier) 모델을 사용하는 것이 더 저렴한 경우가 많습니다.

따라서 답은 "어느 쪽이 더 우월한가"가 아닙니다.

답은, Cheap AI로 넓은 면적을 커버하고, frontier AI로 난관을 돌파하며, 인간이 책임을 지는 것입니다.

이러한 설계를 할 수 있는 회사일수록 AI 비용을 제어할 수 있습니다. 반대로, 모든 것을 최고급 모델에 투입하는 회사는 모델의 성능이 아니라 청구서에 락인 (lock-in)되어 갈 것입니다.

Insights