H100 한 장으로 구동되는 Apache 2.0 코딩 MoE, Cohere의 North Mini Code

요약

Cohere가 Apache 2.0 라이선스로 가중치를 공개한 코딩 특화 MoE 모델 'North Mini Code'를 출시했습니다. 30B 파라미터 규모로 H100 한 장에서 구동 가능하며, 에이전트 환경에서의 도구 호출 및 일반화 성능에 최적화되어 있습니다.

핵심 포인트

Apache 2.0 라이선스로 가중치 전면 공개
30B MoE 구조로 H100 1장에서 효율적 구동 가능
RLVR(검증 가능한 보상을 통한 강화학습) 적용
다양한 에이전트 하네스 환경에서의 일반화 성능 강조
에이전트 운용을 위한 저비용·고처리량 설계

Cohere라고 하면 대개 임베딩 벡터나 엔터프라이즈용 RAG 기업을 떠올린다. 그런데 그 회사가 내놓은 첫 번째 '개발자용' 모델이 자사 API에 가두어 둔 거대 모델이 아니라, Apache 2.0 라이선스로 가중치(weights)를 통째로 공개한 코딩 특화 모델이었다. 이는 다소 의외이며, 실무적으로 매우 흥미롭다.

공개된 모델은 North Mini Code이다. 총 파라미터 30B, 활성 파라미터 3B의 MoE (Mixture-of-Experts, 토큰마다 일부 '전문가'만 사용하는 희소 아키텍처) 구조로, H100 한 장에 올라간다. 코드 생성 자체보다는 에이전트(agent) 내에서 도구를 호출하며 작업을 진행하는 용도를 겨냥하고 있다.

강력한 코딩 모델은 대개 두 가지 선택지로 나뉘곤 한다. 폐쇄형 API를 통해 사용하는 최상위 모델이거나, 가중치는 공개되어 있어도 자신의 GPU에는 올릴 수 없는 거대 모델이다. 코드라는 가장 외부로 유출하기 어려운 자산을 다루면서도, 추론을 외부 서비스에 통째로 맡길 수밖에 없었던 구도가 계속 이어져 왔다.

North Mini Code는 이 지점을 정면으로 돌파한다. 가중치는 Hugging Face에 있으며, 라이선스는 Apache 2.0이고, 추론은 1× H100 @ FP8 (양자화를 적용하면 1× H100 @ FP4)로 구동 가능하다. 배포 시에는 다음과 같은 양자화 버전이 준비되어 있다.

항목	내용
총 / 활성 파라미터	30B / 3B (128개 전문가 중 8개 활성화)
...

에이전트 용도로 30B급이 현실적인 이유는 추론 비용이 저렴하고 병렬성(parallelism)이 효과적이기 때문이다. Cohere는 동일 체급인 Devstral Small 2와 비교했을 때, 출력 처리량(throughput)에서 최대 2.8배, 토큰 간 레이턴시(latency)에서 약 30%의 우위를 주장하고 있다. 레이턴시 × 병렬 수가 비용과 직결되는 에이전트 운용에서는 이 차이가 매우 중요하다.

개인적으로 가장 인상 깊었던 점은 벤치마크 수치보다 훈련 방식이다. Hugging Face의 해설 기사에 따르면, North Mini Code는 2단계의 SFT (Supervised Fine-Tuning) 이후, 검증 가능한 보상을 통한 강화학습 (RLVR, 테스트 통과 여부와 같이 정오를 기계적으로 판정할 수 있는 보상으로 학습하는 기법)을 수행했다. 2단계 SFT는 약 5,000개의 리포지토리에서 유래한 45억 개의 토큰을 사용했으며, 그중 61%가 코드라고 한다.

여기서 '하네스(harness)'란 모델에게 파일을 읽게 하고, 명령어를 실행시키며, 그 결과를 다음 프롬프트로 돌려주는 에이전트의 기반 환경을 의미한다. SWE-Agent나 OpenCode가 이에 해당한다. North Mini Code는 특정 하나에 최적화하는 대신, 여러 하네스 위에서 훈련되었으며, SFT 혼합 데이터의 6%를 하네스 간의 일반화(generalization)를 위해 할당했다고 한다. 목표는 기반 환경을 교체하더라도 동작이 무너지지 않는 모델을 만드는 것이다.

점수 또한 이러한 맥락에서 읽으면 의미가 보인다. SWE-Bench Verified는 SFT 단계에서 80.2% (pass@10)를 기록했으며, RLVR를 통해 절대적으로 3.0포인트 개선되었다. Terminal-Bench v2는 RLVR로 7.9포인트 개선되었다고 보고되었다. 반면, 제3자 기관인 Artificial Analysis Coding Index에서는 33.4로, 최상위권을 노리는 수치는 아니다. 이 부분은 솔직하게 받아들여야 하며, 이 모델의 가치는 단일 지능의 높음이 아니라, 자체적으로 구동 가능하며 기반 환경에 강하다는 운용상의 특성에 있다.

가중치를 그대로 사용하려면 모델 카드의 Transformers 예제를 바로 사용할 수 있다.

from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "CohereLabs/North-Mini-Code-1.0"
tokenizer = AutoTokenizer.from_pretrained(model_id)
...

에이전트로 사용하려면 vLLM으로 서빙한다. 주의할 점은 도구 호출(tool calling)과 사고(thought) 분석을 위해 전용 파서인 cohere_command4를 지정해야 한다는 것이다. 범용 설정을 그대로 복사해서 붙여넣으면 도구 호출을 제대로 인식하지 못할 것이다.

vllm serve CohereLabs/North-Mini-Code-1.0 \
-tp 2 \
--max-model-len 320000 \
...

GPU를 준비하고 싶지 않다면, OpenRouter의 무료 엔드포인트 cohere/north-mini-code:free를 이용할 수 있다.

있다(속도 제한이나 제공의 지속성은 무료 범위에 상응하므로, 실서비스 전제 시에는 주의가 필요하다). FP8 가중치(weights)는 별도의 리포지토리 CohereLabs/North-Mini-Code-1.0-fp8로 공개되어 있다.

소스를 대조해 보면, 제공 시의 스펙은 입력 256K로 명시되어 있는 반면, HF(Hugging Face) 기사의 기술 내용에서는 훈련 및 평가 컨텍스트 길이(context length)가 단계적으로 64K에서 128K까지로 되어 있으며, 256K 전체에 대한 평가에 대해서는 언급하지 않고 있다. 즉, "256K 입력 가능"과 "256K에서 신뢰하며 긴 문장을 다룰 수 있음"은 별개의 문제라고 보고 두는 것이 좋다. 긴 컨텍스트(long context)를 활용하는 용도로 사용한다면, 128K를 초과하는 영역은 자신의 태스크에서 직접 실측한 후 실서비스에 도입해야 한다.

North Mini Code는 지능 경쟁을 위한 모델이라기보다, 코드를 외부로 유출하지 않고 에이전트(agent)를 자체적으로 구동하고 싶은 팀을 위한 모델이라고 생각한다. Apache 2.0 라이선스와 H100 한 장이라는 조건은 사내 도구나 규제가 엄격한 환경에서 더욱 매력적이다. Cohere가 엔터프라이즈(enterprise) 지향적인 회사라는 점을 상기하면, 첫 번째 개발자용 모델이 이러한 형태라는 것은 의외로 정공법적인 선택으로 보인다.

AI 자동 생성 콘텐츠

원문 바로가기

H100 한 장으로 구동되는 Apache 2.0 코딩 MoE, Cohere의 North Mini Code

요약

핵심 포인트

댓글