본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 05. 02. 18:19

MiMo-V2.5-Pro - 실제 최고의 오픈가중치 모델

요약

본 기사는 복잡한 사회적 추리 게임인 'Blood on the Clocktower'를 벤치마크로 사용하여 MiMo-V2.5-Pro 모델의 성능을 분석했습니다. 이 모델은 Kimi K2.6과 함께 최상위권 플레이어로 자리매김했으며, 특히 높은 승률을 보여주었습니다. 가장 중요한 점은 비용 효율성입니다. MiMo-V2.5-Pro는 게임당 토큰 사용량(183,639 토큰)이 Kimi K2.6보다 적고, 비용($0.99)도 절반 이하로 저렴하며, 매치 완료 시간도 훨씬 짧아 실용적인 측면에서 가장 우수한 모델임을 강조합니다.

핵심 포인트

  • MiMo-V2.5-Pro는 복잡한 사회적 추리 게임(Blood on the Clocktower)에서 강력한 성능을 입증했습니다.
  • MiMo-V2.5-Pro의 최대 강점은 비용 효율성입니다. Kimi K2.6 대비 토큰 사용량과 운영 비용이 현저히 낮습니다.
  • Kimi K2.6은 매우 장황하여 게임당 $2.65가 소요되고 매치 완료 시간이 길다는 실용적 문제가 있습니다.
  • MiMo-V2.5-Pro는 낮은 비용($0.99)과 빠른 처리 속도(일반적으로 2-3시간 내 완료)를 제공하여 최상위권 모델 중 가장 실용적인 선택지입니다.
  • 모델의 신뢰성 측면에서도 MiMo-V2.5-Pro는 0.4%의 낮은 도구 호출 오류율을 보였습니다.

Kimi K2.6 의 인상적인 변화 이후, 이제 샤오미의 MiMo-V2.5-Pro 에 대한 결과를 얻었습니다.

참고로, 이는 제가 만든 벤치마크를 기반으로 합니다. 이 벤치마크는 모델들이 'Blood on the Clocktower'라는 매우 복잡한 사회적 추리 게임에서 서로 대결하도록 설계되었습니다. 익숙하지 않으신다면, 이는 마피아/워울프나 트라이트어 TV 쇼와 유사합니다.

MiMo-V2.5-Pro 는 Kimi K2.6 과 함께 또 다른 강력한 플레이어로 합류했으며, 두 모델 모두 자신의 클래스에서 대중을 압도했습니다. 참고로 GPT 5.5 (Xhigh) 나 Claude Opus 4.7 (Max) 와 같이 이 영역에 있을지도 모른다는 모델들은 아직 벤치마크하지 않았습니다.

흥미롭게도, 승률은 다소 편향되어 있습니다 (선함 88% / 악함 48%). 매우 높은 선함 팀 승리율을 가지고 있지만, 악함 팀 승리율이 낮아 최상위권에서 뒤처지는 상황입니다.

왜 MiMo-V2.5-Pro 를 Kimi K2.6 보다 선택해야 하나요?

Kimi K2.6 은 게임당 평균 580,000 토큰의 매우 장황한 추론을 보여줘서 게임당 비용이 $2.65 입니다. 이는 또한 긴 응답 시간을 유발하여 매치가 완료되는 데 약 10-15 시간이 걸리게 합니다. 많은 용도에서 다소 실용적이지 못합니다.

반면, MiMo-V2.5-Pro 는 게임당 183,639 토큰 (Gemini 3.1 Pro의 장황함과 유사) 으로 약간 장황하지만, 비용은 게임당 $0.99로 절반 이하입니다. 최상위권에서는 Claude Opus 4.6 이 게임당 $3.76 을 지출합니다. 또한 매치는 일반적으로 (Kimi 와 대결하지 않는 경우를 제외하고) 보통 2-3 시간 내에 완료됩니다.

또한 도구 호출 오류율 0.4% 로 상당히 신뢰할 수 있습니다.

이로 인해 현재 이 그룹의 최상위권에서 가장 비용 효율적인 모델로 자리매김합니다.

주목할 만한 움직임:

주목할 만한 실수:

MiMo-V2.5-Pro 전사본: https://clocktower-radio.com/search?a=MiMo-V2.5-Pro

작동 방식: https://clocktower-radio.com/how-it-works

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
6

댓글

0