본문으로 건너뛰기

© 2026 Molayo

Qiita헤드라인2026. 06. 25. 22:44

H100 한 장으로 구동되는 Apache 2.0 코딩 MoE, Cohere의 North Mini Code

요약

Cohere가 Apache 2.0 라이선스로 가중치를 공개한 코딩 특화 MoE 모델 'North Mini Code'를 출시했습니다. 30B 파라미터 규모로 H100 한 장에서 구동 가능하며, 에이전트 환경에서의 도구 호출 및 일반화 성능에 최적화되어 있습니다.

핵심 포인트

  • Apache 2.0 라이선스로 가중치 전면 공개
  • 30B MoE 구조로 H100 1장에서 효율적 구동 가능
  • RLVR(검증 가능한 보상을 통한 강화학습) 적용
  • 다양한 에이전트 하네스 환경에서의 일반화 성능 강조
  • 에이전트 운용을 위한 저비용·고처리량 설계

Cohere라고 하면 대개 임베딩 벡터나 엔터프라이즈용 RAG 기업을 떠올린다. 그런데 그 회사가 내놓은 첫 번째 '개발자용' 모델이 자사 API에 가두어 둔 거대 모델이 아니라, Apache 2.0 라이선스로 가중치(weights)를 통째로 공개한 코딩 특화 모델이었다. 이는 다소 의외이며, 실무적으로 매우 흥미롭다.

공개된 모델은 North Mini Code이다. 총 파라미터 30B, 활성 파라미터 3B의 MoE (Mixture-of-Experts, 토큰마다 일부 '전문가'만 사용하는 희소 아키텍처) 구조로, H100 한 장에 올라간다. 코드 생성 자체보다는 에이전트(agent) 내에서 도구를 호출하며 작업을 진행하는 용도를 겨냥하고 있다.

강력한 코딩 모델은 대개 두 가지 선택지로 나뉘곤 한다. 폐쇄형 API를 통해 사용하는 최상위 모델이거나, 가중치는 공개되어 있어도 자신의 GPU에는 올릴 수 없는 거대 모델이다. 코드라는 가장 외부로 유출하기 어려운 자산을 다루면서도, 추론을 외부 서비스에 통째로 맡길 수밖에 없었던 구도가 계속 이어져 왔다.

North Mini Code는 이 지점을 정면으로 돌파한다. 가중치는 Hugging Face에 있으며, 라이선스는 Apache 2.0이고, 추론은 1× H100 @ FP8 (양자화를 적용하면 1× H100 @ FP4)로 구동 가능하다. 배포 시에는 다음과 같은 양자화 버전이 준비되어 있다.

항목내용
총 / 활성 파라미터30B / 3B (128개 전문가 중 8개 활성화)
...

에이전트 용도로 30B급이 현실적인 이유는 추론 비용이 저렴하고 병렬성(parallelism)이 효과적이기 때문이다. Cohere는 동일 체급인 Devstral Small 2와 비교했을 때, 출력 처리량(throughput)에서 최대 2.8배, 토큰 간 레이턴시(latency)에서 약 30%의 우위를 주장하고 있다. 레이턴시 × 병렬 수가 비용과 직결되는 에이전트 운용에서는 이 차이가 매우 중요하다.

개인적으로 가장 인상 깊었던 점은 벤치마크 수치보다 훈련 방식이다. Hugging Face의 해설 기사에 따르면, North Mini Code는 2단계의 SFT (Supervised Fine-Tuning) 이후, 검증 가능한 보상을 통한 강화학습 (RLVR, 테스트 통과 여부와 같이 정오를 기계적으로 판정할 수 있는 보상으로 학습하는 기법)을 수행했다. 2단계 SFT는 약 5,000개의 리포지토리에서 유래한 45억 개의 토큰을 사용했으며, 그중 61%가 코드라고 한다.

여기서 '하네스(harness)'란 모델에게 파일을 읽게 하고, 명령어를 실행시키며, 그 결과를 다음 프롬프트로 돌려주는 에이전트의 기반 환경을 의미한다. SWE-Agent나 OpenCode가 이에 해당한다. North Mini Code는 특정 하나에 최적화하는 대신, 여러 하네스 위에서 훈련되었으며, SFT 혼합 데이터의 6%를 하네스 간의 일반화(generalization)를 위해 할당했다고 한다. 목표는 기반 환경을 교체하더라도 동작이 무너지지 않는 모델을 만드는 것이다.

점수 또한 이러한 맥락에서 읽으면 의미가 보인다. SWE-Bench Verified는 SFT 단계에서 80.2% (pass@10)를 기록했으며, RLVR를 통해 절대적으로 3.0포인트 개선되었다. Terminal-Bench v2는 RLVR로 7.9포인트 개선되었다고 보고되었다. 반면, 제3자 기관인 Artificial Analysis Coding Index에서는 33.4로, 최상위권을 노리는 수치는 아니다. 이 부분은 솔직하게 받아들여야 하며, 이 모델의 가치는 단일 지능의 높음이 아니라, 자체적으로 구동 가능하며 기반 환경에 강하다는 운용상의 특성에 있다.

가중치를 그대로 사용하려면 모델 카드의 Transformers 예제를 바로 사용할 수 있다.

from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "CohereLabs/North-Mini-Code-1.0"
tokenizer = AutoTokenizer.from_pretrained(model_id)
...

에이전트로 사용하려면 vLLM으로 서빙한다. 주의할 점은 도구 호출(tool calling)과 사고(thought) 분석을 위해 전용 파서인 cohere_command4를 지정해야 한다는 것이다. 범용 설정을 그대로 복사해서 붙여넣으면 도구 호출을 제대로 인식하지 못할 것이다.

vllm serve CohereLabs/North-Mini-Code-1.0 \
-tp 2 \
--max-model-len 320000 \
...

GPU를 준비하고 싶지 않다면, OpenRouter의 무료 엔드포인트 cohere/north-mini-code:free를 이용할 수 있다.

있다(속도 제한이나 제공의 지속성은 무료 범위에 상응하므로, 실서비스 전제 시에는 주의가 필요하다). FP8 가중치(weights)는 별도의 리포지토리 CohereLabs/North-Mini-Code-1.0-fp8로 공개되어 있다.

소스를 대조해 보면, 제공 시의 스펙은 입력 256K로 명시되어 있는 반면, HF(Hugging Face) 기사의 기술 내용에서는 훈련 및 평가 컨텍스트 길이(context length)가 단계적으로 64K에서 128K까지로 되어 있으며, 256K 전체에 대한 평가에 대해서는 언급하지 않고 있다. 즉, "256K 입력 가능"과 "256K에서 신뢰하며 긴 문장을 다룰 수 있음"은 별개의 문제라고 보고 두는 것이 좋다. 긴 컨텍스트(long context)를 활용하는 용도로 사용한다면, 128K를 초과하는 영역은 자신의 태스크에서 직접 실측한 후 실서비스에 도입해야 한다.

North Mini Code는 지능 경쟁을 위한 모델이라기보다, 코드를 외부로 유출하지 않고 에이전트(agent)를 자체적으로 구동하고 싶은 팀을 위한 모델이라고 생각한다. Apache 2.0 라이선스와 H100 한 장이라는 조건은 사내 도구나 규제가 엄격한 환경에서 더욱 매력적이다. Cohere가 엔터프라이즈(enterprise) 지향적인 회사라는 점을 상기하면, 첫 번째 개발자용 모델이 이러한 형태라는 것은 의외로 정공법적인 선택으로 보인다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0