본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 05. 14. 06:01

1조 파라미터의 딜레마: MiMo-V2.5-Pro가 오픈 소스로 공개되었습니다 (1.02T 파라미터). API 비용이 3억 8,700만 토큰에

요약

Xiaomi가 1.02조 파라미터의 MiMo-V2.5-Pro 모델을 오픈 소스로 공개했으나, 실제 사용 사례(자율 코딩 세션)를 분석한 결과 API 기반 서비스가 경제적으로 우위를 점하고 있습니다. 이 모델은 지속적인 자율 개발 및 장기 컨텍스트 추론에 매우 뛰어나지만, 1.02T 파라미터 규모 때문에 일반 개발자가 로컬에서 구동하기는 하드웨어적 제약이 너무 큽니다.

핵심 포인트

  • MiMo-V2.5-Pro는 1.02조 파라미터를 가지며, MoE(42B 활성) 구조와 MIT 라이선스를 갖춘 오픈 웨이트 모델입니다.
  • 자율 코딩 세션과 같은 장기 실행 작업에서는 API의 캐싱 기능이 비용 효율성을 극대화하여 직접 호스팅보다 유리할 수 있습니다.
  • 1.02T 파라미터 규모는 일반적인 개발 환경(예: RTX 4090)에서 구동하기 어려우며, 최소한 대규모 멀티 GPU 인프라가 필요합니다.
  • 직접 호스팅이 경제적으로 타당해지는 경우는 데이터 프라이버시 보장, 독점 코드베이스 미세 조정, 또는 24/7 대규모 실행이 필요한 경우에 한정됩니다.

Xiaomi가 MiMo-V2.5-Pro를 오픈 소스로 공개했습니다. 1.02조(trillion) 파라미터, 42B 활성 파라미터 (MoE), 1M 컨텍스트(context), MIT 라이선스입니다. 서류상으로는 매우 흥미롭습니다. 하지만 실제로 계산을 해보니 고민이 생깁니다.

제가 이것으로 하고 있는 작업

저는 단발성 프롬프트가 아니라, 자율 코딩 세션을 위해 Claude Code를 통해 API로 V2.5-Pro를 실행해 왔습니다. 이는 모델이 스스로 작업을 선택하고, 코드를 디버깅하며, 파일 기반 메모리를 사용하여 세션 전반에 걸쳐 작업을 지속하는 수 시간 단위의 확장된 실행 방식입니다.

이것은 단순히 "랜딩 페이지를 만들어줘"와 같은 작업이 아닙니다. 모델이 세션 간에 컨텍스트를 유지하고, 자체 백로그(backlog)를 관리하며, 아키텍처 결정을 내리는 지속적인 자율 개발입니다. 모델이 지시 이행(instruction following)이나 긴 컨텍스트 추론(long-context reasoning)에 약하다면 즉각적으로 눈치챌 수 있는 종류의 작업입니다.

캐싱 덕분에 터무니없이 저렴합니다

제 청구 내역은 다음과 같습니다:

지표
총 토큰 수387,380,436
...

캐시 히트율(cache hit rate)은 96%입니다. Claude Code는 세션 내의 도구 호출(tool calls) 사이에서 컨텍스트를 매우 적극적으로 재사용하며, V2.5-Pro의 캐싱 덕분에 처음 몇 번의 호출 이후에는 입력 비용이 거의 들지 않습니다. 125개 세션 동안 3억 8,700만 토큰을 사용하는 데 70.12달러가 들었습니다.

비교 분석

MiMo-V2.5-ProClaude Opus 4.6GPT-5.4
입력 비용$1.00/M$15.00/M$2.50/M
...

MiMo 비용은 저희 테스트에서 측정된 실제 데이터입니다. Claude와 GPT의 추정치는 보수적인 캐시 히트 가정(MiMo의 96% 대비 90%)을 바탕으로 공개된 API 가격을 기준으로 한 것이지만, 정확히 동일한 작업 부하를 기준으로 한 것은 아닙니다.

그다음 오픈 소스에 대해 기대하게 되었습니다

MIT 라이선스. 오픈 웨이트(Open weights). 직접 실행할 수 있습니다. 속도 제한(rate limits)도 없고, API 의존성도 없으며, 완전한 데이터 프라이버시가 보장됩니다.

그러다 사양을 살펴보았습니다. 총 1.02T 파라미터. MoE (42B 활성) 방식이라 하더라도 전체 모델 웨이트는 엄청난 크기입니다. FP8 양자화(quantized)를 하더라도 약 1TB에 달합니다.

제 하드웨어는 48GB 통합 메모리를 가진 MacBook Pro M4와 RTX 4090 (24GB VRAM)이 장착된 데스크톱입니다. 4090은 70B 모델을 잘 처리하며, 저는 정기적으로 양자화된 Qwen과 DeepSeek를 실행합니다. 하지만 1.02T 파라미터라고요? 근처에도 못 갑니다.

현실적으로 이 모델을 로컬에서 실행하는 것은 매우 어렵습니다. 최소 4개의 A100 80GB, 아마도 그 이상의 강력한 멀티 GPU (multi-GPU) 인프라가 필요할 것입니다. 이는 하드웨어 비용으로 15,000~20,000달러에 달하거나, 클라우드 GPU (cloud GPU) 대여 시 시간당 6달러가 소요됩니다. 하루에 몇 시간씩 코딩 세션을 진행하는 개발자에게 이러한 경제성은 성립하지 않습니다.

API가 승리하는 지점 (그리고 그렇지 않은 지점)

저처럼 하루에 몇 시간 정도 코딩 세션을 갖는 간헐적인 사용 패턴의 경우, 96%의 캐시 히트율 (cache hits)을 보이는 API는 정말로 이기기 어렵습니다. 저는 세션당 평균 약 0.56달러를 지출하고 있습니다. 이에 상응하는 클라우드 GPU (cloud GPU) 사용 시간은 설정 및 유지보수 비용을 고려하기도 전에 하드웨어 비용만으로 시간당 6달러가 들 것입니다.

직접 호스팅 (self-hosting)이 승리하는 지점은 다음과 같습니다:

• 데이터 프라이버시 (기업용 서비스의 진정한 핵심 기능)

• 독점 코드베이스 (proprietary codebases)에 대한 미세 조정 (fine-tuning)

• 시간당 비용이 분할 상환되는 24/7 대규모 실행

• 속도 제한 (rate limits) 없음 (저는 집중적인 테스트 중에 API 제한에 몇 번 걸린 적이 있습니다)

하지만 대부분의 개발자에게는 어떨까요? API 측의 캐싱 (caching)이 너무나 많은 핵심적인 역할을 수행하고 있습니다.

Xiaomi는 또한 할인된 크레딧 배수와 비피크 시간대 가격이 적용된 토큰 플랜을 제공하며, 이는 작업 패턴과 사용 강도에 따라 비용을 더욱 절감할 수 있습니다.

질문

혹시 실제로 오픈 소스 V2.5-Pro를 시도해 보신 분이 계신가요? 어떤 하드웨어를 고려하고 계신가요? 누군가 양자화 (quantized) 버전이나 GGUF 변환 작업을 하고 있는지 궁금합니다. 다만 1.02T 파라미터라면 Q4 방식이라 하더라도 규모가 엄청날 것입니다.

이 모델은 지속적인 자율 코딩 (autonomous coding)에 진정으로 뛰어납니다. 저는 단지 모델을 24시간 내내 가동하지 않는 사람에게 직접 호스팅이 경제적으로 타당해지는 시점이 언제인지 도저히 계산이 서지 않습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0