JetBrains, 제3자 API의 한계에 도전하기 위해 Mellum2 오픈 소스 공개

JetBrains의 Mellum2 오픈 소스 코딩 모델은 진정한 변화의 단계입니다. 이는 12B 파라미터(12B-parameter) 규모의 온프레미스 (on-premises) AI 인프라 모델로, 출시 첫날부터 오픈 소스로 제공됩니다. 이것은 단순히 기존의 코드 완성 도구를 개선한 수준이 아닙니다. Mellum2의 속도, 범위, 그리고 네이티브 프라이빗 배포 (native private-deployment) 능력은 에이전틱 AI (agentic AI)를 위한 새로운 지평을 엽니다. 2025년 3월 25일, JetBrains는 Claude Code와 같이 API에 종속된 모델들이 결코 도달할 수 없는 영역을 목표로 하는 솔직한 야망을 담아 Mellum2를 발표했습니다. 단순한 코드 제안을 넘어 AI 인프라를 진지하게 고려하는 팀들에게 이는 판도를 바꾸는 변화입니다.

Mellum2 vs Mellum: 새로운 모델은 실제로 어떻게 다른가?

Mellum2는 단순히 "규모가 커진 Mellum"이 아닙니다. 차이점은 구조적입니다. Mellum (2024년 말)은 JetBrains IDE를 위한 코드 완성 엔진으로 제공되었던 독점적인 4B 파라미터 (4B-parameter) 모델이었으며, 이후 2025년 4월에 오픈 소스로 공개되었습니다. Mellum2는 용량(12B 파라미터)을 배가시켰을 뿐만 아니라, 그 임무(mandate) 측면에서 도약했습니다. 즉, 단일 작업 자동 완성에서 멀티 에이전트 AI (multi-agent AI) 시스템을 위해 구축된 실용적인 인프라 브레인으로 진화했습니다.

실제로 변화하는 내용은 다음과 같습니다:

파라미터 규모 (Parameter scale): Mellum2는 12B (아래의 Mixture-of-Experts 방식 적용)이며, 기존 Mellum은 4B였습니다.
역량 (Capabilities): Mellum은 코드 완성 기능에 국한되었습니다. 반면 Mellum2는 서브 에이전트 (sub-agent) 작업을 조정하고, 검색 중심 파이프라인 (retrieval-heavy pipelines)을 위해 컨텍스트를 압축하며, 모델 간에 쿼리를 라우팅 (route queries)하도록 설계되었습니다.
출시와 동시에 오픈 소스화: Mellum2는 출시 첫날부터 오픈 소스로 제공되어, "초기 Mellum"의 확산을 제한했던 폐쇄형 베타와 광범위한 채택 사이의 간극을 없앴습니다.
변형 모델 지원 (Variant support): Mellum2는 베이스 (base), "인스트럭트 (instruct)", 그리고 "씽킹 (thinking)" 모델을 제공합니다. 마지막 모델은 명시적인 추론 단계 (explicit reasoning steps)를 수행할 수 있어, 단순한 코덱스 (codex) 작업을 넘어 에이전틱 요구 사항을 충족합니다.

JetBrains의 공식 발표에 따르면: "Mellum2는 ... 인프라 팀이 직접 제어하는 인프라에서 추론 (inference)을 수행합니다."

핵심 요약: Mellum2는 단순히 코드를 더 빨리 작성하기 위한 것이 아니라, 에이전틱 AI 레이어를 위해 구축되었습니다. 이는 규모의 도약만큼이나 임무의 전환을 의미합니다.

왜 Mellum2가 Claude Code가 할 수 없는 온프레미스(on-premises) AI를 실제로 가능하게 하는가

Anthropic의 Claude Code를 포함한 대부분의 코드 생성 (codegen) AI는 제3자 API를 요구합니다. 코드베이스나 컨텍스트를 "클라우드로" 전송하면, 처리는 온프레미스 외부에서 이루어지고 결과물만 다시 돌아옵니다. 일부 조직에는 이것이 괜찮을 수 있지만, 규제를 받거나 개인정보 보호를 중시하는 인프라 팀에게 이는 시작부터 불가능한 방식입니다.

Mellum2는 오픈 소스이며, API 호출이나 벤더 종속(vendor lock), 강제적인 네트워크 홉(network hops) 없이 전적으로 귀하의 하드웨어에서 실행되도록 설계되었습니다. 이를 통해 다음과 같은 작업이 가능합니다:

프라이빗, 에어갭 (air-gapped) 배포: Mellum2를 내부 클러스터에 배포하고 방화벽을 닫은 상태로 유지할 수 있습니다.
데이터 레지던시 (data residency) 보장: 소스 코드가 귀하의 랙(racks)을 절대 떠나지 않습니다. 공유 클라우드 캐시나 국가 간 데이터 이동 위험이 없습니다.
지연 시간(Latency) 및 제어: 전문가 혼합 (Mixture-of-Experts, MoE) 설정 덕분에 토큰당 12B 파라미터 중 2.5B만 활성화되므로, 고빈도 에이전트 워크플로의 체인 오케스트레이션 (chained orchestration)에 충분할 만큼 추론 (inference) 속도가 빠릅니다.

라우팅, 검색 파이프라인 (retrieval pipelines), 위임된 ("서브 에이전트") 작업과 같은 인프라 오버레이 (infrastructure overlays)에서는 왕복 시간 (round-trip time)만으로도 클라우드 전용 모델의 이점이 사라지는 경우가 많습니다. Mellum2는 범용성보다 "하드웨어에 밀착된 (close to the metal)" 방식이 승리하는 이러한 워크로드에 맞춤화되어 있습니다.

특히 금융, 바이오, 핵심 인프라 분야의 보안 및 컴플라이언스(compliance) 압박은 이를 필수 요소로 만듭니다. Mellum2를 사용하면 제3자 노출 없이 에이전틱 AI (agentic AI)를 구축할 수 있습니다.

핵심 요약: Mellum2는 단순히 온프레미스에서 더 빠른 것이 아니라, API에 종속된 모델들이 할 수 없는 온프레미스에서의 실제 실행 가능성을 제공합니다.

실제 엔지니어링 스택에서 Mellum2를 지금 배포하고 사용하는 방법

실행할 준비가 되셨나요? Mellum2의 오픈 소스 스택과 로컬 모드 덕분에 상용 호스트를 기다릴 필요가 없습니다. 다음은 시작 워크플로입니다:

모델 파일 가져오기:

JetBrains는 Mellum2 (base, instruct, thinking)를 오픈 라이선스로 공개합니다. 12B 모델을 위한 충분한 디스크 공간과 원하는 처리량 (throughput)을 위한 RAM/GPU가 필요합니다. (실제 파일 이름/링크는 릴리스에 따라 다르며, 위 소스 링크를 참조하십시오.)
로컬 추론 (Inference) 실행:

일반적인 관행은 llama.cpp 또는 vLLM과 같은 서빙 엔진 (serving engine)을 사용하는 것이지만, 필요한 경우 Mellum2 특유의 특이 사항에 맞춰 조정하십시오. 실행 예시 (vLLM 및 CUDA 가정 시):

   vllm-server \
     --model /models/mellum2-instruct \
     --dtype float16 \
...

하드웨어에 맞춰 --model 경로, 데이터 타입 (dtype), 메모리 플래그를 조정하십시오.

지시 모델 (instruct-mode) 엔드포인트를 사용하는 경우, 올바른 변체 (variant)를 서빙하고 있는지 확인하십시오.

에이전트 워크로드 (Agentic workloads) 통합: 서브 에이전트 (sub-agents)를 오케스트레이션하는 개발자(예: 작업 라우팅, 컨텍스트 캐싱)의 경우, 조정 계층 (coordination layer)에 Mellum2를 연결하십시오. 다음 용도로 사용하십시오:

IDE 내에서의 코드 완성 및 리뷰 (Code completion and review)
대규모 문서에 대한 질문 답변을 위한 검색 압축 (Retrieval compression) (인덱싱 파이프라인)
서브 에이전트 관리 (Sub-agent management): Mellum2가 자체 작업 큐 시스템에서 작업을 중개하고, 분해하고, 순서를 지정하도록 합니다.

다음은 OpenAI API 호환성을 사용하는 간단한 Python 클라이언트 예시입니다 (Mellum2 서버가 로컬에서 실행 중이라고 가정):

   import openai
   openai.api_base = "http://localhost:8000/v1"
   openai.api_key = "sk-local-"
...

JetBrains IDE 통합을 위해, 플러그형 언어 서버 프로토콜 (LSP) 또는 Mellum2 네이티브 플러그인 업데이트를 확인하십시오.

핵심 요약: Mellum2는 오늘 바로 귀하의 자체 랙 (racks)에서 실행할 수 있으며, 워크플로는 현대적인 AI 스택이 허용하는 한 "지정 후 서빙 (point and serve)"에 가장 가깝습니다.

[[IMG: schematic of an on-prem server running Mellum2 side-by-side with code editors and an agent routing system]]

JetBrains가 말하는 "포컬 모델 (focal model)"이란 무엇이며, Mellum2는 어떻게 부합하는가?

JetBrains 직원들은 Mellum2를 “포컬 모델 (focal model)”이라고 부릅니다. 이는 프론티어 LLM (Frontier LLMs)보다 더 높은 벤치마크 성능을 내겠다는 주장이 아니라, 소프트웨어 엔지니어링 오케스트레이션 (software engineering orchestration)이라는 하나의 영향력이 크고 빈도가 높은 유스케이스 (use case)를 완벽하게 해결하겠다는 의미입니다. 이는 광범위한 생성적 지능이나 세상에 대한 지식에 관한 것이 아니라, 다음 사항들에 집중합니다:

속도와 전문화 (Speed and specialization): 전문가 혼합 (Mixture-of-Experts, MoE) 방식은 토큰당 추론 (per-token inference) 시 25억 개(2.5B)의 활성 파라미터(active params) 세트만 사용함을 의미합니다. 실제 엔지니어링 스택은 합성된 “일반 코딩” 벤치마크에서 몇 퍼센트의 성능 향상보다는, 와이어 속도 (wire speed)와 최소한의 컨텍스트 지연 (context lag)을 원합니다.
슬림한 표면적 (Lean surface area): 포컬 모델은 더 좁은 임무를 수용하지만, 그 범위 내에서 강력하게 최적화됩니다. 따라서 여러분의 오케스트레이션 (서브 에이전트, 검색, 작업 라우팅)이 단순한 새로움이 아닌 신뢰할 수 있는 인프라가 됩니다.

JetBrains 엔지니어들의 표현을 빌리자면, "이러한 전문화는 모델이 가볍고 빠르게 유지되면서도 소프트웨어 엔지니어링 환경에서 탁월한 성능을 발휘하도록 보장합니다." 프론티어 실험은 계속되겠지만, 그동안 “포컬 (focal)” 모델은 인프라의 예측 가능성을 유지해 줍니다.

핵심 요약: Mellum2는 일반적인 IQ보다 지연 시간 (latency)과 결정론 (determinism)이 더 중요한 작업들을 위해 구축된 인프라 편향 모델 (infrastructure-bias model)입니다.

미래: 인프라 제어 지점으로서의 오픈 소스 AI 모델

Mellum2의 오픈 소스 공개는 눈에 띄는 트렌드의 일부입니다. 즉, 무게감 있는 AI 모델들이 사후 시장이 아닌 첫 커밋 (first commit) 단계부터 오픈되는 흐름입니다. 부상하는 에이전트형 AI (agentic AI)를 위해, 자신의 하드웨어에서 오픈 모델을 실행하는 것은 이제 위험 회피를 위한 차선책이 아니라 표준이 되어가고 있습니다.

업계는 “데이터 센터로서의 API (API-as-datacenter)” 패턴에서 벗어나고 있습니다. 이는 단순히 보안에 관한 수사적 표현이 아닙니다. 소스, 가중치 (weights), 그리고 추론 (inference)에 대한 제어권은 다음을 가능하게 합니다:

감사 및 수정 가능한 로직 (Auditable, modifiable logic): 필요에 따라 모델의 동작을 미세 조정(tweak), 디버깅하거나 확장할 수 있습니다.
커뮤니티 주도 변형 모델 (Community-driven variants): “인스트럭트 (instruct)” 및 “씽킹 (thinking)” 파생 모델들이 단순히 한 벤더로부터 전달되는 것이 아니라, 통합업체들에 의해 매우 구체적인 수직 시장 (verticals)에 맞춰 튜닝될 것을 기대할 수 있습니다.
생태계 독립성 (Ecosystem independence): 상위 API의 변경, 할당량 제한 (quota limits), 또는 “지원되지 않는 지역” 문제로 인해 갇히는 상황을 방지합니다.

여기서 OTF(On-the-fly)는 어떤 역할을 할까요? 그 가치는 모델과 라우팅 체인(routing chains)을 변화하는 모델의 지형
_아래_에서 지속 가능한 기질(durable substrate)로 취급하는 데 있습니다. Mellum2가 오늘날 중심적일 수 있지만, 오픈 모델(open models)과 오픈 오케스트레이션 프레임워크(open orchestration frameworks)가 있다면, 내년에 어떤 모델이 우위를 점하든 상관없이 귀하의 워크플로우는 지속됩니다.

핵심 요약: Mellum2와 같은 오픈 소스 모델은 엔지니어링 팀이 인프라 계층에 대한 통제권을 다시 가질 수 있게 하며, 벤더 종속(vendor lock-in)에서 벗어나려는 더 넓은 트렌드를 추진합니다.

[[IMG: a code pipeline diagram, showing context retrieval, Mellum2 focal worker, and alternative local models in sequence]]

Mellum2 오픈 소스 코딩 모델은 보기 드문 형태로 등장했습니다. 바로 처음부터 오픈 소스로 제공되는 고용량, 고속 인프라 모델입니다. 이것은 단순한 코드 완성 엔진이 아닙니다. Claude Code와 같이 API에 종속된 도구들이 안전하거나 실질적으로 접근할 수 없는 영역인 라우팅(routing), 검색(retrieval), 오케스트레이션(orchestration) 등 에이전트형 AI(agentic AI) 작업을 정면으로 다루는 최초의 "포컬 모델(focal model)"입니다. 귀하의 하드웨어에 배포할 수 있고 귀하의 팀이 직접 수정할 수 있는 Mellum2는 엔지니어가 마침내 종속성과 지연 시간(latency) 대신 개인정보 보호, 속도, 그리고 특화(specialization)를 우선시할 수 있게 해줍니다.