JetBrains, 셀프 호스팅 AI 파이프라인의 마지막 퍼즐 조각을 오픈 소스로 공개하다
요약
JetBrains가 에이전틱 AI 인프라를 위한 12B 파라미터 코딩 모델 Mellum2를 오픈 소스로 공개했습니다. 이 모델은 에어갭 환경이나 보안이 중요한 조직을 위해 설계되었으며, 고빈도 엔지니어링 작업을 효율적으로 처리하는 '포컬 모델'을 지향합니다.
핵심 포인트
- Apache 2.0 라이선스로 제공되는 12B MoE 기반 오픈 소스 모델
- 에어갭 및 컴플라이언스 민감 환경을 위한 셀프 호스팅 최적화
- 코드 완성, 서브 에이전트 워크로드, 컨텍스트 압축 등 전문 작업 수행
- Qwen2.5-7B 대비 높은 동시 부하 처리량 및 우수한 코딩 성능
JetBrains가 에이전틱 AI (agentic AI) 시스템의 인프라 계층을 위해 구축된 12B 파라미터 코딩 모델인 Mellum2를 오픈 소스로 공개했습니다. 이 모델은 출시 첫날부터 Apache 2.0 라이선스로 제공되며, 사용자가 제어하는 하드웨어에서 완전히 실행됩니다. 또한 Claude Code나 OpenAI Codex가 접근할 수 없는 환경, 즉 에어갭 (air-gapped) 환경, 컴플라이언스에 민감한 조직, 그리고 모든 추론 (inference) 호출을 외부 API를 통해 라우팅하고 싶지 않은 팀들을 위해 명시적으로 설계되었습니다.
"프런티어 모델 (Frontier models)은 계속해서 한계를 밀어붙이겠지만, 실용적인 AI 제품에는 포컬 모델 (focal models)도 필요합니다. 즉, 고빈도 작업을 효율적으로 처리하는 빠르고 전문화된 구성 요소가 필요합니다."
이것이 바로 JetBrains가 Mellum2를 프런티어 모델의 도전자가 아니라, 빠르고 가벼우며 소프트웨어 엔지니어링 워크플로우를 정조준한 전문가로 정의하는 방식입니다.
실제로 무엇이 바뀌었나
Mellum (원본)은 JetBrains IDE 내부에서 코드 완성 (code completion)이라는 한 가지 작업만 수행하는 4B 파라미터 모델이었습니다. 2024년 말에 독점(proprietary) 모델로 출시되었으며 2025년 4월에 오픈 소스로 전환되었습니다.
Mellum2는 완전히 다른 차원의 모델입니다. 이 모델은 엔지니어링 팀이 AI를 배포하는 방식을 정의하는 더 넓은 범위의 작업들을 위해 구축되었습니다: 모델 간의 조정, 서브 에이전트 (sub-agent) 워크로드 처리, 검색 파이프라인 (retrieval pipelines)에서의 컨텍스트 압축 등이 이에 해당합니다. JetBrains는 이를 "포컬 모델 (focal model)"이라고 부릅니다. 즉, 범용성 측면에서 GPT-4o를 이기려 하기보다는, 실제 운영 환경에서 중요한 고빈도 작업에서 승리하는 것을 목표로 합니다.
아키텍처는 전문가 혼합 (Mixture-of-Experts, MoE) 방식입니다: 총 12B 파라미터를 보유하고 있지만, 64개의 전문가 (experts) 중 일부를 통해 라우팅되어 토큰당 2.5B 파라미터만 활성화됩니다. 이 때문에 처리량 (throughput) 수치가 흥미롭습니다:
- 단일 요청 (Single-request): Qwen2.5-7B와 대등 (하나의 H100에서 192 대 193 tokens/sec)
- 동시 부하 상황 (Under concurrent load): Qwen2.5-7B보다 21% 앞서며, Qwen3-8B보다 79% 앞섬
- EvalPlus (thinking variant): 78.4% — Qwen3.5-9B (71.8%) 및 Seed-Coder-8B (73.8%)보다 앞섬
두 가지 변형(variant)이 베이스 모델과 함께 출시됩니다. 직접적인 답변을 위한 instruct 버전과, 더 어려운 다단계(multi-step) 및 에이전트적(agentic) 작업을 목표로 명시적인 추론 과정(reasoning trace)을 생성하는 thinking 버전이 그것입니다. 하지만 트레이드오프(tradeoff)는 분명합니다. Qwen3.5-9B는 여전히 더 광범위한 추론 벤치마크(GPQA Diamond, MMLU-Redux)에서 앞서 있습니다. JetBrains는 이에 대해 다음과 같이 설명합니다. "이 격차는 광범위한 백과사전식 범위를 다루기보다는 코드와 개발자 문서에 집중하도록 의도적으로 조정한 학습 믹스(training mix)의 결과입니다."
의존성 문제
이것이 핵심입니다. Claude Code는 로컬에서 실행되지만 Anthropic에 연결됩니다. OpenAI Codex 역시 OpenAI에 연결됩니다. Cursor의 강력함은 그 플랫폼에 종속되어 있으며, xAI와의 파트너십은 외부 통제라는 또 다른 계층을 추가합니다. 이 모든 도구들은 추론(inference)을 타인의 인프라에 맡깁니다.
Mellum2는 그럴 필요가 없습니다. 오픈 웨이트(Open weights), Apache 2.0 라이선스, 완전한 셀프 호스팅(self-hostable)이 가능합니다. 규제가 엄격한 산업군의 팀, 에어갭(air-gapped) 환경, 또는 대규모로 진지한 비용 모델링을 수행하는 모든 이들에게 이것은 사소한 각주가 아니라 핵심적인 가치입니다.
JetBrains는 다음과 같은 데 베팅하고 있습니다. AI가 엔지니어링 워크플로우에 더 깊숙이 통합될수록, 배포 유연성과 운영 제어권은 줄어드는 것이 아니라 더욱 중요해질 것이라는 점입니다.
권장 사항
- 컴플라이언스(compliance)에 민감한 환경을 위해 AI 도구를 평가 중이라면 — Mellum2는 이제 벤치마크를 실행해 볼 가치가 있는 신뢰할 수 있는 옵션입니다. Hugging Face에서 웨이트를 확인하세요.
- 에이전트 파이프라인(agentic pipelines)을 구축 중이라면 — 부하 상황에서의 MoE 처리량(throughput) 이점 덕분에 라우팅(routing) 또는 서브 에이전트(sub-agent) 모델로서 테스트해 볼 가치가 있습니다.
- 프런티어 모델(frontier-model)만을 고집하는 경로에 있다면 —
thinking버전이 어떻게 성숙해지는지 주시하십시오. EvalPlus 수치는 이미 코드 중심 작업에서 경쟁력을 갖추고 있습니다. - JetBrains IDE를 사용 중이라면 — 이 모델은 어차피 여러분의 툴체인(toolchain)에 도입될 것입니다. 아키텍처를 이해하면 이를 잘 구성하는 데 도움이 됩니다.
_출처: The New Stack
✏️ KewBot (AI)로 초안 작성, Drew가 편집 및 승인.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기