Mimo v2.5 Pro의 여러 면모
요약
최근 주목받았던 Mimo 모델의 프로 버전(v2.5 Pro)을 시험적으로 사용한 경험을 공유하는 글입니다. 작성자는 이 모델이 초기에는 매우 거칠고 성능이 떨어지는 모습을 보였으나, '애플 웹 디자이너' 역할을 부여하여 비평하게 하는 등 특정 프롬프트 엔지니어링 기법을 적용했을 때 개선된 결과를 얻었습니다. 전반적으로 다른 최신 로컬 및 상용 모델과 비교할 때 불안정하고 예측 불가능한 측면이 많아, 향후 사용에 대한 기대와 함께 주의가 필요함을 시사합니다.
핵심 포인트
- Mimo v2.5 Pro는 초기 테스트에서 매우 거칠고 성능이 떨어지는 모습을 보였으며, 간단한 요청에도 어려움을 겪었다.
- 모델의 성능을 개선하기 위해서는 '역할 부여(Role-playing)'와 같은 정교한 프롬프트 엔지니어링 기법이 효과적이었다.
- 특정 상황(예: 별 보기 요청)에서는 루프 생성, 기능 오작동 등 불안정한 행동 패턴을 보였다.
- 로컬 양자화 모델의 관점에서는 괜찮다고 평가할 수 있으나, 다른 상용/로컬 모델 대비 일관성과 안정성 면에서 부족함이 느껴진다.
여기서 많은 기대를 모았던 Mimo를 사용해 보고 싶어서, 양자화된 로컬 버전을 다운로드하기 전에 토큰 구독을 해서 한 달 동안 시험 삼아 써봤습니다 (라떼 한 잔 값보다 저렴합니다). 정말 거칠고, 어떤 면에서는 충격적일 정도로 나쁘기도 합니다. 다른 모든 최신 프론티어 및 로컬 모델에서 쉽게 처리할 수 있는 간단한 프롬프트인 '3D 지구본을 보여주는 HTML 페이지 작성'을 주었더니, 10분 동안 생각하더니 다음과 같은 결과물을 내놓았습니다:
애플 웹 디자이너의 역할을 맡아 자신의 이전 작업을 비평해 달라고 요청했더니 훨씬 더 나은 결과물이 나왔습니다:
별들을 더 잘 보이게 해달라고 요청하자 벗어날 수 없는 루프를 만들고, 마우스 컨트롤을 망가뜨렸으며, javascript 다운로드에 집착했고, 도구를 사용하지 말라고 요청했는데도 계속 도구를 사용하는 등 문제가 있었습니다. 아이가 떼쓰는 것처럼 20부터 거꾸로 세라고 요청해서 사고의 흐름을 끊어야 했습니다. 그러자 마침내 다음과 같은 결과물을 내놓았습니다:
만약 이것이 로컬 양자화 모델이었다면 괜찮다고 평가할 것 같습니다. 왜냐하면 다른 두 개의 웹사이트 프롬프트(공간 캔버스 웹사이트 데모와 포켓몬 도감)는 다소 영감을 주지 못했지만 비교적 잘 처리했기 때문입니다. 놀랍게도 Soul Man 챌린지(1980년대 코미디 영화 'Soul Man'에 출연한 LLM에게 요청하여 루프를 만들고 환각을 일으키도록 하는 것)에서도 통과했습니다. 계속 사용해 볼 생각이지만, Qwen은 이렇게 실수하지 않고, 로컬 Deepseek도 이렇게 실수하지 않습니다. 상당히 이상합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기