JetBrains Mellum 2: 정말 훌륭하고 성능이 뛰어난 모델

요약

JetBrains에서 출시한 Mellum 2 12B MoE 모델의 성능과 속도를 리뷰합니다. 12B 파라미터 중 2.5B만 활성화되는 MoE 구조를 통해 매우 빠른 추론 속도와 뛰어난 도구 호출(Tool Calling) 능력을 보여줍니다.

핵심 포인트

12B MoE 모델임에도 100t/s 이상의 매우 빠른 생성 속도 구현
130k의 긴 컨텍스트에서도 성능 저하 없는 안정적인 속도 유지
gemma4-12b 등 더 큰 모델보다 우수한 도구 호출 및 디버깅 능력
AMD GPU 및 Vulkan 백엔드 환경에서의 효율적인 구동 확인

안녕하세요 여러분,

Mellum 2 모델을 직접 사용해 보았기에, 제 인상을 이곳에 공유하고자 합니다.

면책 조항: 여기에 제시된 테스트는 과학적이지 않으며, perplexity(퍼플렉시티)와 같은 멋진 명칭을 사용하지도 않았습니다. 이 테스트들은 제가 매일 작업하는 방식이나 특정 작업에서 모델이 얼마나 유용한지에 더 가깝습니다. 그냥 참고만 하세요.

무엇보다도, 2.5b 파라미터가 활성화되는 12b MoE (Mixture of Experts) 모델이라는 점은 다소 흔치 않은데, 속도를 한번 보세요:

모델 JetBrains/Mellum2-12B-A2.5B-Thinking

Prompt eval 492.7 t/s
Generation 111.2 t/s
ms / token 9.0 ms
Context 131 072 tokens
KV cache bf16
Backend llama.cpp Vulkan b9544
GPU AMD Radeon RX 7900 XT 20 GB

약 130k 컨텍스트(Context)에서도 속도가 100t/s 아래로 떨어진 적이 없습니다.
세션별 도구 호출:
Mellum 2 모델에 의한 도구 호출
말씀드린 대로, 테스트를 위해 몇 가지 작업을 사용했습니다. 이에 대한 더 자세한 정보는 다음과 같습니다:

tool_test: 이론적으로는 간단하지만, 더 큰 모델인 gemma4-12b와 gpt-oss-20b는 적어도 write/part V 단계에서 실패합니다. 프롬프트는 여기 있습니다: https://gist.github.com/gcavalcante8808/e5b4173dab2d66fd8c9c18d2e04d4742
test_report: 이 테스트는 tool_test의 일부인 작업들을 바탕으로 모델의 점수를 매깁니다. 따라서 prometheus 메트릭 확인, TransactionLog 재구성 등 다소 까다로운 내용이 포함되어 있습니다. 프롬프트는 여기 있습니다: https://gist.github.com/gcavalcante8808/969c071b872d8677211f836febcbfdcf
때때로 모델이 어디에서 어려움을 겪었는지 정확히 파악하기 위해 session-debugger를 호출해야 할 때도 있는데, 제 의견으로는 이 정도 무게의 모델에게는 그리 간단한 작업이 아닙니다: https://gist.github.com/gcavalcante8808/7be2c5e9220fd6ecb7106100b8a4cb93

빠른 비교를 위해, 동일한 작업을 원샷(oneshot)으로 수행하는 전설적인 qwen3.5-9b는 동일한 하드웨어에서 대략 30t/s의 토큰 생성 속도를 보입니다!
요약(TLDR): JetBrains가 해냈습니다! 정말 감명 깊었습니다!
설정
저는 AMD XT7900 (20GB 카드)와 128GB의 DDR4 RAM을 보유하고 있으며, Vulkan을 사용하여 테스트했습니다.

PS: ROCM으로 테스트를 시도했지만, GPU에 하드 잠금(hard locks)이 발생하여 rocm 테스트는 연기했습니다.

lscpu:
❯ lscpu Architecture: x86_64 CPU op-mode(s): 32비트, 64비트 Address sizes: 43 비트 물리적, 48 비트 가상 Byte Order: Little Endian CPU(s): 24 온라인 CPU 목록: 0-23 Vendor ID: AuthenticAMD Model name: AMD Ryzen 9 3900X 12코어 프로세서 CPU family: 23 Model: 113 Thread(s) per core: 2 Core(s) per socket: 12 Socket(s): 1 Stepping: 0 Frequency boost: 활성화됨 CPU(s) 스케일링 MHz: 81% CPU 최대 MHz: 4672.0698 CPU 최소 MHz: 2200.0000 BogoMIPS: 7585.71
docker-compose.yaml:
services: llama: image: ghcr.io/ggml-org/llama.cpp:server-vulkan-b9544 # image: ghcr.io/anbeeld/beellama.cpp:server-vulkan-v0.3.1 ports: - "8080:8080" volumes: - huggingface_cache:/root/.cache - ./templates:/templates - ./models.ini:/config/models.ini:ro - ./models:/models devices: - /dev/kfd - /dev/dri command: - --models-preset - /config/models.ini - --models-max - "1" environment: LLAMA_ARG_HOST: "0.0.0.0" ulimits: nofile: soft: 65536 hard: 65536 nproc: soft: 65536 hard: 65536
sysctls: - net.ipv4.tcp_keepalive_time=600 - net.ipv4.tcp_keepalive_intvl=30 - net.core.somaxconn=8192
models.ini:
[*] flash-attn = on ctx-size = 131072 [mellum2-12b-thinking] alias = mellum2, mellum hf-repo = JetBrains/Mellum2-12B-A2.5B-Thinking-GGUF-Q8_0:Q8_0 temp = 0.6 top-p = 0.95 top-k = 20 no-mmproj = true cache-type-k = bf16 cache-type-v = bf16 n-gpu-layers = 99 no-cache-prompt = true cache-ram = 0 [qwen3.5-9b] alias = qwen35-9b, qwopus hf-repo = unsloth/Qwen3.5-9B-MTP-GGUF:UD-Q6_K_XL temp = 1.0 top-p = 0.95 top-k = 20 min-p = 0.00 repeat-penalty = 1.0 presence-penalty = 1.5 chat-template-file = /templates/qwen.jinja chat-template-kwargs = {"preserve_thinking":true} no-mmproj = true n-gpu-layers = 99 no-cache-prompt = true cache-ram = 0 cache-type-k = bf16 cache-type-v = bf16
제출자: /u/gcavalcante8808 r/LocalLLaMA에 제출
[링크] [댓글]

AI 자동 생성 콘텐츠

원문 바로가기