신비로운 Hy3 LLM이 OpenRouter 모델 순위에서 압도적인 차이로 1위를 차지하다

OpenRouter는 단일 API를 통해 대부분의 LLM (Large Language Models)에 대한 접근을 제공하는 서비스로, 최근 새로운 LLM 출시 속도가 빨라짐에 따라 매우 유용해졌습니다. 사용자와 LLM API 사이의 중개자 역할을 하는 OpenRouter는 사용자가 LLM과 어떻게 상호작용하는지에 대한 강력하고 대표성 있는 데이터를 보유하고 있으며, 이를 AI 모델 순위 (AI Model Rankings) 페이지에 공개합니다. 이는 경쟁상의 이유로 일반적으로 데이터를 비밀로 유지하는 연구소(labs)들과는 대조되는 반가운 행보입니다. 최근 저는 OpenRouter 순위를 확인하다가 기이한 점을 발견했습니다.

2026년 5월 25일 검색됨.

두 개의 새로운 모델이 토큰 사용량 측면에서 LLM의 총아인 Claude를 능가하고 있으며, 그 차이가 50% 이상이라고요? DeepSeek Flash V4에 대해서는 들어본 적이 있습니다. 이는 DeepSeek에서 출시한 오픈 소스 (open-source) 모델로, 빠르고 저렴할 뿐만 아니라 매우 낮은 비용으로 선두 LLM 모델들에 근접한 성능을 보여주기 때문에 엄청난 인기를 끄는 것도 놀라운 일은 아닙니다. 그런데 Hy3 preview는 도대체 무엇일까요? 저는 Hy3에 대해 들어본 적도, 누군가 이에 대해 이야기하는 것을 본 적도 전혀 없습니다. 구글링을 해보니 중국의 거대 기업 Tencent가 Hy3의 오픈 소스 출시를 발표한 내용이 나옵니다. Hugging Face의 모델 페이지 자체는 내용이 빈약하며, 다른 중국 오픈 소스 모델들과 비교했을 때 모델에 유리하지 않은, 이상할 정도로 솔직한 벤치마크 (benchmark) 결과들을 포함하고 있습니다.

Coding-oriented benchmark results for Hy3 from Tencent’s Hugging Face repo.

Tencent의 Hugging Face 저장소에서 가져온 Hy3의 코딩 지향적 벤치마크 결과.

Hacker News에서 Hy3를 검색했을 때는 Hy3에 관한 것이 아닌 단 하나의 게시물만 검색되었고, Reddit 토론은 오픈 웨이트 (open-weights) 출시에 더 집중되어 있습니다. 또한 한 Reddit 스레드에서는 Hy3의 부상을 언급했지만, 이는 Hy3가 OpenRouter에서 무료로 제공되었던 5월 6일부터의 기록입니다. 해당 무료 엔드포인트 (endpoint)는 더 이상 사용할 수 없으므로, 위 주간 순위에서의 Hy3 사용량은 유료 사용자로부터 발생한 것입니다.

Hy3 preview는 에이전틱 코딩 (agentic coding) 이외의 영역에서도 인기가 있는 것으로 보입니다.

2026년 5월 25일 검색됨.

제가 무언가를 놓친 걸까요? 비과학적인 테스트를 거친 결과, 모델의 품질은 실제로 언급된 다른 중국 모델들과 대등한 수준이며, Claude Opus 4.7이나 GPT 5.5와 같은 모델에는 미치지 못합니다. 이것은 마법처럼 간과되었던 '원석(diamond-in-the-rough)'이 아니므로, 분명 다른 요인이 작용하고 있을 것입니다. 다행히 OpenRouter는 가능한 설명을 좁힐 수 있는 데이터를 보유하고 있지만, 데이터를 확인한 후 저는 더 혼란스러워졌습니다.

Hy3 preview는 OpenRouter API를 통해 입력 100만 토큰당 $0.066라는 명시된 가격으로 이용 가능하며, 이는 현재 순위 1위 모델인 DeepSeek V4 Flash의 명시된 가격인 입력 100만 토큰당 $0.10보다 실제로 더 저렴합니다. LLM(대규모 언어 모델) 및 코딩 에이전트(coding agents)의 비용이 급격히 상승하고 있다는 점을 고려하면 더 저렴한 모델이 우세해지는 것은 타당하지만, 이는 모델이 유사한 품질을 제공할 때만 가능하며 현재 상황은 그렇지 않아 보입니다.

다음은 모델 페이지에서 가져온 OpenRouter의 Hy3 preview 모델 시간 경과에 따른 사용량 차트입니다:

Hy3 preview는 5월 8일 이전의 사용 데이터가 없는데, 이는 해당 시점에 모델이 무료 SKU(Stock Keeping Unit)에서 유료 SKU로 전환되었음을 시사합니다. 그 이후 사용량은 꾸준히 유지되고 있으며, 이 포스트에서 보여주는 초기 순위는 출시 후 몇 주가 지난 시점의 것이므로, 사용량이 최소한 유기적(organic)이거나 (조작하기에는 매우 비싼) 방식이며 일회성 이상치(outlier)가 아님을 보여줍니다. 주목할 점은, 여기에 제시된 수치로 계산해 보면 LLM API 호출 시 입력 토큰 대비 출력 토큰의 비율이 총합 98% 입력, 2% 출력으로 나타난다는 것입니다.

OpenRouter AI 모델 순위(AI Model Rankings)의 경우, 특정 앱이 기본 모델을 특정 LLM으로 전환할 때 역사적으로 급증하는 사례가 있었습니다. 예를 들어, 2025년 9월 Kilo Code가 Grok Code Fast 1을 무료로 제공했을 때 인기가 급상승한 경우가 그러합니다. 하지만 이번 사례는 그렇지 않은 것으로 보이는데, 앱(apps)이 Hy3 preview 활동의 아주 작은 부분만을 차지하고 있기 때문입니다.

The top 5 apps accout for <1% of all activity to Hy3 preview.

상위 5개 앱은 Hy3 preview 전체 활동의 1% 미만을 차지합니다.

OpenRouter의 가치 제안(value proposition)은 주어진 API 요청을 서로 다른 제공업체(providers)로 자동 라우팅(route)하는 능력입니다. DeepSeek V4 Flash와 같은 오픈 웨이트 (open-weight) 모델의 경우, OpenRouter는 13개의 제공업체를 나열하고 있지만, Hy3 preview는 오픈 웨이트임에도 불구하고 단 하나의 제공업체만을 보유하고 있습니다: 바로 싱가포르에 기반을 둔 SiliconFlow입니다. OpenRouter의 사용량 페이지를 보면 SiliconFlow는 Hy3가 등장하기 전까지는 상대적으로 사용량이 적었습니다.

The green area corresponds to free Hy3 usage while the blue area corresponds to paid Hy3 usage: OpenRouter does not differentiate them on mouseover which I suspect is a bug.

녹색 영역은 무료 Hy3 사용량에 해당하며, 파란색 영역은 유료 Hy3 사용량에 해당합니다. OpenRouter는 마우스 오버 시 이 둘을 구분하지 않는데, 이는 버그일 것으로 의심됩니다.

우연하게도 해당 데이터 시각화 자료는 Hy3 preview가 무료에서 유료로 전환되었을 때 사용량이 급격히 떨어지지 않았음을 보여주며, 이는 그 자체로 흥미로운 지점입니다. 만약 사용자들이 무료 모델에서 가치를 얻지 못했다면, 비용이 발생하기 시작했을 때 사용을 중단했을 가능성이 높기 때문입니다.

제가 무엇을 놓치고 있는 걸까요? 제가 너무 깊게 생각하는 것이고, 실제 답은 단순히 "가장 저렴하기" 때문이며, 무료 기간 동안 충분한 미끼 상품(loss leader)으로서의 견인력을 얻었기 때문일까요?

...하지만 Hy3 preview가 OpenRouter에서 대기업이 지원하는 LLM 중 실제로 가장 저렴한 LLM일까요? 몇 가지 가설을 재확인하던 중, 저는 OpenRouter의 데이터가 Hy3 preview가 사용 가능한 성능 좋은 LLM 중 가장 저렴한 것은 아니라는 점을 보여준다는 사실을 발견했습니다. 실제로는 DeepSeek V4 Flash가 가장 저렴하지만, 몇 가지 흥미로운 주의 사항이 있습니다.

2026년의 LLM 경제학 (LLM Economics in 2026)

자, 여기 자주 논의되지 않는 LLM API의 작동 방식에 대한 몇 가지 추가적인 노트가 있습니다. LLM 호출은 여전히 상태 비저장 (stateless) 방식입니다. 즉, 매 턴(LLM에 질문을 던지는 사용자 메시지 포함)이 지나갈 때마다 현재 대화 스레드에 있는 모든 토큰이 다시 처리된다는 것을 의미합니다. 이는 에이전트 (agents)의 경우, 입력 토큰의 수가 연속되는 메시지와 함께 누적적으로 증가한다는 것을 의미하며, 컨텍스트 (context)가 채워짐에 따라 효과적인 에이전트 사용을 위해 빈번하게 새로운 스레드를 시작하는 것이 권장되는 이유 중 하나입니다.

Reverse-chronological OpenRouter logs from one minute of Zed Agent use with DeepSeek V4 Flash selected.

DeepSeek V4 Flash가 선택된 상태에서 Zed Agent를 1분간 사용했을 때의 역연대순 (Reverse-chronological) OpenRouter 로그입니다.

하지만 에이전트 워크플로우 (agentic workflows)가 등장하기 전에도, 전체 PDF와 같은 대량의 입력값은 이와 유사하게 컨텍스트 (context)를 비대하게 만들었습니다. 그 결과, 대부분의 LLM 제공업체는 대화 초기에 처리된 입력 토큰을 재사용하는 프롬프트 캐싱 (prompt caching)을 구현했습니다. 이는 LLM 제공업체에게는 시간과 연산 비용을 절약해 주고, 그 절감된 비용이 고객에게 전달되는 윈-윈 (win-win) 방식입니다. OpenRouter를 통해 접속할 때를 포함하여 대부분의 LLM 제공업체는 입력을 자동으로 캐싱합니다. 비용 옆에 표시된 번개 모양의 디스크 심볼은 토큰이 캐싱되었음을 나타내며, 특히 OpenRouter가 스레드 중간에 제공업체를 전환하는 경우 캐시가 항상 적중 (hit)하는 것은 아닐 수도 있습니다. 특이하게도 Anthropic (Claude) API는 어떤 이유에서인지 먼저 캐시 쓰기 (cache write) 비용을 지불해야 합니다.

일반적으로 캐시 읽기 (cache read) 비용은 입력 비용의 10% 수준입니다. 이는 OpenAI API, Anthropic API, 그리고 Google Gemini API의 최신 모델들에 해당되는 사항입니다. DeepSeek V4 Flash를 서비스하는 13개의 제공업체의 경우, 캐시 읽기 비용은 입력 비용의 20%에서 50% 사이인데, 이는 그들이 동일한 규모의 경제 (economies of scale)를 갖추지 못했을 수 있다는 점을 고려하면 타당합니다. 하지만 DeepSeek V4 Flash 제공업체 중 한 곳은 예외입니다:

캐시 읽기 비용이 무려 2%입니다! (2를 곱하고 소수점을 왼쪽으로 두 칸 이동하세요) 어떻게 DeepSeek의 캐시 읽기 가격이 이렇게 낮을 수 있을까요? DeepSeek는 V4부터 KV 캐싱 (KV caching)에 대한 새로운 접근 방식을 구현했으며, 모델의 제작자로서 자체적인 혁신을 가장 잘 활용할 수 있는 위치에 있습니다. 앞서 언급했듯이 이러한 이점은 고객에게 전달됩니다. DeepSeek가 직접 서비스하는 DeepSeek V4 Pro 변형 모델의 경우, 캐시 읽기 비용은 *0.83%*에 불과합니다! (이건 계산기를 사용하세요)

제가 LLM API 비용의 98%가 이제는 공격적으로 캐싱되는 입력 토큰 (input tokens)이라는 점을 보여드렸던 것을 기억하시나요? 이는 LLM의 "표시된" 가격이 이제 오해의 소지가 있다는 것을 의미하지만, 실제 가격은 훨씬 더 저렴해질 것이기 때문에 이례적으로 고객에게 유리한 방향으로 작용합니다! 이러한 모호함에 대응하기 위해, OpenRouter는 이제 모델 페이지에 캐시 히트 (cache hits)로 인한 비용 절감을 반영한 실질 가격 (effective prices) 표를 제공합니다. 다음은 제공업체별 OpenRouter를 통한 DeepSeek V4 Flash의 실질 가격이며, 각 제공업체마다 캐시 읽기 비용 (cache read costs)과 캐시 히트율 (cache hit rates)이 다르기 때문에 제공업체마다 차이가 있습니다:

Retrieved May 25, 2026; these values update every hour.

2026년 5월 25일에 검색됨; 이 값들은 매시간 업데이트됩니다.

가격이 제각각이지만, DeepSeek 자체가 제공업체인 두 번째 행을 주목해 보세요. 입력 토큰 1M당 무려 $0.018로 책정되어 있습니다! 그 2%의 캐시 읽기 비용이 정말 큰 효과를 발휘합니다. Hy3 preview와 동일한 조건에서 비교해 보면, (무려 *44%*의 캐시 읽기 비용을 가진) SiliconFlow의 모델 페이지에 명시된 Hy3 preview의 실질 가격은 1M당 $0.034입니다. 이는 DeepSeek의 DeepSeek V4 Flash보다 거의 두 배에 달하는 가격입니다! 물론, 이는 DeepSeek가 제공업체로 명시적으로 사용될 때만 적용되며, 일부 다운스트림 (downstream) OpenRouter 클라이언트/에이전트는 이를 지원하지 않을 수도 있습니다. OpenRouter 가격은 DeepSeek의 직접 가격과 일치하므로, DeepSeek API 키를 직접 사용하는 것도 동일하게 작동할 것입니다.

또한 간과할 수 없는 중요한 문제(elephant in the room)가 있습니다. DeepSeek는 중국에 기반을 둔 기업이며, 일부 사용자들은 자신의 결제 처리 정보나 LLM 입력 데이터를 프롬프트 학습 (prompt training) = true로 설정한 중국 기업에 제공하고 싶지 않거나 법적으로 제공할 수 없을 수도 있는데, 이는 정당한 우려 사항입니다.

네, Claude Code나 Codex와 같은 구독 기반 LLM 서비스는 사용량 제한을 지속적으로 소진할 수 있다면 여전히 가성비(bang for your buck)가 가장 좋습니다. 하지만 API를 통한 매우 저렴한 DeepSeek V4 Flash는 구독에 얽매이지 않으며, 프로젝트를 완료하기 위해 약간 더 많은 에이전트 컴퓨팅(agentic compute)이 필요한 경우, 구독 서비스에서 추가 사용량을 결제하는 것보다 더 저렴합니다. 최소한 이는 에이전트 AI(agentic AI) 경쟁이 가열됨에 따라 2026년까지 지속될 가능성이 높은 추가적인 가격 책정 속임수(pricing shenanigans)에 맞서는 미시경제학적 점검 장치가 됩니다.

전반적으로, 저는 여전히 OpenRouter에서 Hy3 프리뷰가 왜 인기가 있는지 이해하지 못하겠습니다. 위의 가용 데이터와 분석을 고려할 때, 제 추측으로는 Tencent와 관련이 없는 단일 대형 앱이 실제로 Hy3를 데이터 처리 백본(backbone)으로 사용하고 있으며, 이 앱이 오로지 에이전트 코딩 앱만은 아닐 것이라는 점입니다. 하지만 OpenRouter의 장점 중 하나는 모델과 제공업체를 전환하는 데 드는 노력이 적다는 것입니다. 사람들이 DeepSeek V4 Flash의 가격을 파악하게 되면 몇 주 안에 사용량이 급증하더라도 놀랍지 않을 것입니다.

Hy3의 라이선스는 어떤 면에서 매우 제한적이어서 제공업체들이 이 모델을 채택하는 것을 잠재적으로 방해할 수 있습니다. ↩︎

DeepSeek는 또한 V4 Flash를 통해 강력한 캐싱(caching)을 활용한다고 주장하는 자체 코딩 에이전트 플랫폼을 막 발표했습니다. 하지만 입력 비용은 50% 수준이지만 캐시 읽기 비용은 훨씬 더 비싼 20% 수준이어서, 경제성이 실제로 다른 에이전트와 함께 DeepSeek API 키를 사용하는 것보다 저렴한지는 불분명합니다. ↩︎

신비로운 Hy3 LLM이 OpenRouter 모델 순위에서 압도적인 차이로 1위를 차지하다

요약

핵심 포인트

2026년의 LLM 경제학 (LLM Economics in 2026)

댓글