Mellum2 소개: JetBrains의 12B Mixture-of-Experts 모델

요약

JetBrains가 12B 파라미터 규모의 MoE 모델인 Mellum2를 출시했습니다. 이 모델은 토큰당 2.5B 파라미터만 활성화하여 높은 처리량과 낮은 지연 시간을 제공하며, 텍스트와 코드 작업에 최적화되어 있습니다.

핵심 포인트

12B MoE 아키텍처로 추론 효율성 극대화
유사 규모 모델 대비 2배 이상의 빠른 추론 속도
라우팅, RAG, 요약 등 지연 시간에 민감한 작업에 최적화
Apache 2.0 라이선스로 오픈 소스 제공

Mellum2는 자연어와 코드를 바탕으로 처음부터 학습된 12B 파라미터 규모의 Mixture-of-Experts (MoE) 모델입니다.
이 모델은 토큰당 2.5B 파라미터만 활성화하여, 높은 처리량(high-throughput)과 낮은 지연 시간(low-latency)의 추론(inference)에 효율적입니다. Mellum2는 라우팅(routing), RAG, 요약(summarization), 서브 에이전트(sub-agents), 높은 처리량의 코딩 기능 및 프라이빗 배포(private deployments)에 사용될 수 있습니다.
Apache 2.0 라이선스로 출시되었습니다.
유사한 크기의 모델과 비교했을 때, Mellum2는 경쟁력 있는 벤치마크 성능을 제공하는 동시에 2배 이상 빠른 추론 속도를 달성했습니다.
Hugging Face에서 모델을 다운로드하세요: https://huggingface.co/collections/JetBrains/mellum-2
아키텍처 상세 정보, 학습 설정, 벤치마크 및 평가 방법론에 대해서는 전체 기술 보고서를 읽어보세요: https://arxiv.org/pdf/2605.31268

오늘 우리는 낮은 지연 시간의 텍스트 및 코드 워크로드에 최적화된 오픈 Mixture-of-Experts 모델인 Mellum2를 출시합니다. Mellum은 원래 코드 완성(code completion) 모델로 시작되었습니다. Mellum2를 통해 우리는 모델의 효율적인 추론과 배포 가능성에 집중하면서도, 그 기반을 더 넓은 범위의 자연어 및 소프트웨어 엔지니어링 작업으로 확장합니다. 현대의 AI 시스템은 라우팅(routing), 검색(retrieval), 요약(summarization), 계획(planning), 검증(validation) 및 도구 사용(tool use)과 같이 점점 더 많은 모델 호출에 의존하고 있습니다. 이러한 작업 중 상당수는 지연 시간에 민감하며, 반드시 사용 가능한 가장 큰 모델을 필요로 하지는 않습니다. Mellum2는 바로 이러한 워크로드를 목표로 합니다.

기술 보고서에서 우리는 코드 생성(code generation), 추론(reasoning), 과학(science) 및 수학(math) 벤치마크를 통해 Mellum2를 평가합니다. Mellum2는 유사한 크기의 오픈 모델들과 경쟁할 만한 성능을 보이면서도 2배 이상 빠른 추론을 제공하여, 높은 처리량이 요구되는 프로덕션 워크로드에 적합합니다. 모델 아키텍처: Mellum2는 Mixture-of-Experts 모델입니다:

모델	총 파라미터	토큰당 활성 파라미터	모달리티 (Modality)	라이선스
Mellum2	12B	2.5B	텍스트 및 코드	Apache 2.0

MoE (Mixture-of-Experts) 아키텍처는 각 토큰에 대해 매개변수(parameter)의 일부만 활성화하면서도 전체 모델 용량을 높게 유지합니다. 이는 추론 (inference)을 더 효율적으로 만들며, 실시간 워크로드에 대한 서빙 비용을 줄이는 데 도움이 됩니다. Mellum2는 멀티모달 (multimodal) 작업보다는 텍스트와 코드에 의도적으로 집중했습니다. 이러한 전문화는 소프트웨어 엔지니어링 워크로드에 대해 모델을 컴팩트하고 효율적으로 유지해 줍니다.

Mellum2는 프롬프트 분류 (prompt classification), 도구 선택 (tool selection), 중간 제어 흐름 (control-flow) 단계 등 멀티 모델 시스템 내에서 경량 라우팅 (routing) 및 오케스트레이션 (orchestration) 모델로서 잘 작동합니다.

이 모델은 컨텍스트 압축 (context compression), 요약 (summarization), 검색 후처리 (retrieval post-processing)를 포함하여 지연 시간 (latency)에 민감한 검색 파이프라인 (retrieval pipelines)에 매우 적합합니다.

Mellum2는 계획 (planning), 검증 (validation), 변환 (transformation), 컨텍스트 준비 (context preparation)와 같은 에이전트 하위 작업 (agent subtasks)에 사용될 수 있으며, 중간 작업들을 위해 더 큰 모델을 호출해야 하는 필요성을 줄여줍니다.

Mellum2는 오픈되어 있고 서빙이 효율적이기 때문에, 독점 코드나 내부 데이터를 포함하는 자체 호스팅 (self-hosted) 환경에 배포될 수 있습니다.

AI 시스템이 성숙해짐에 따라, 가장 효과적인 아키텍처는 점점 덜 단일체적 (monolithic)으로 변하고 있습니다. 단일 프런티어 모델 (frontier model)이 강력할 수는 있지만, 프로덕션 시스템은 종종 검색기 (retrievers), 라우터 (routers), 코드 인식 모델 (code-aware models), 검증기 (validators), 도구 호출기 (tool callers), 그리고 더 큰 추론 모델 (reasoning models) 등 함께 작동하는 여러 전문화된 구성 요소를 필요로 합니다. 우리는 Mellum2를 "초점 (focal)" 모델로 생각합니다. 즉, 더 큰 AI 시스템 내부의 고빈도 작업에 최적화된, 빠르고 범위가 잘 정해진 모델입니다. 목표는 스택의 모든 모델을 대체하는 것이 아닙니다. 목표는 스택을 더 빠르고, 저렴하며, 제어하기 쉽게 만드는 것입니다.

IDE 내부, RAG 파이프라인, 에이전트 워크플로의 일부, 또는 프라이빗 인프라에서 소프트웨어 엔지니어링을 위한 AI 시스템을 구축하고 있다면, Mellum2를 바로 시도해 볼 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Mellum2 소개: JetBrains의 12B Mixture-of-Experts 모델

요약

핵심 포인트

댓글