빠른 모델, 치명적인 루프: north-mini-code-1.0 정직한 벤치마크

현재 로컬 코딩 모델(Local coding models)이 도처에 널려 있지만, README에 적힌 벤치마크 수치만으로는 거의 유용한 정보를 얻을 수 없습니다. 모델이 루프(loop)를 도나요? 도구 호출(tool calls) 시 환각(hallucination)을 일으키나요? 컨텍스트(context)가 길어질 때 정확도가 급격히 떨어지나요? 저는 64GB 통합 메모리(unified-memory) Mac에서 QuantaMind의 전체 진단 스위트(diagnostic suite)를 통해 north-mini-code-1.0:mlx-mxfp8를 실행해 보았으며, 그 결과는 인상적인 부분과 명확한 한계점 모두 공유할 가치가 있습니다.

설정 (The setup)

항목 (Field)	값 (Value)
모델 (Model)	`north-mini-code-1.0:mlx-mxfp8`
...

지연 시간(latency), 컨텍스트 유지(context retention), 에이전트 신뢰성(agentic reliability)이라는 세 가지 조사 항목은 모두 실제 첫 사용 시나리오를 시뮬레이션하기 위해 콜드 스타트(cold start, 모델이 메모리에 아직 예열되지 않은 상태) 상태에서 실행되었습니다.

1 · 인스펙터(Inspector): 원시 처리량(raw throughput) 및 VRAM

인스펙터(Inspector)는 모델이 실제로 어떻게 느껴지는지를 정의하는 세 가지 단계, 즉 모델 로드(model load), 프롬프트 프리필(prompt prefill), 토큰 간 생성 지연 시간(inter-token generation latency)을 측정합니다.

Cold load      2 924 ms
Prompt prefill   797 ms  (123 prompt tokens)
Inter-token       16.5 ms/tok  →  60.8 tok/s

VRAM 점유율(VRAM footprint): 500,000 토큰 컨텍스트 상한선에서 64GB 중 29.5GB (46%)를 사용합니다. OOM(Out of Memory) 임계값 마커는 현재 컨텍스트 깊이에서 모델 로드 라인보다 여유 있게 위치해 있습니다. 하지만 대규모 코드베이스로 컨텍스트 한계까지 밀어붙인다면 해당 수치를 주의 깊게 살펴봐야 합니다.

생성 단계에서 **3번의 지연 시간 급증(latency spikes)**이 감지되었습니다 (워터폴 차트의 빨간색 표시로 확인 가능). 이는 패킷 손실이 아니라 이상치(outlier)인 토큰 간 간격이며, 아마도 GC(Garbage Collection) 일시 중지 또는 메모리 압박(memory pressure) 순간일 가능성이 높습니다. 이것이 생성을 완전히 망치지는 않지만, 스트리밍 UI에서 간헐적인 끊김(stutter)을 유발할 수 있습니다.

핵심 요약(Takeaway): Apple Silicon에서 이 정도 크기의 모델이 60.8 tok/s를 기록하는 것은 빠릅니다. 3초 미만의 콜드 스타트(Cold start)는 워크플로우 도구로서 쾌적한 수준입니다. VRAM 여유 공간은 46% 사용으로 넉넉합니다.

2 · 감사(Audit): 컨텍스트 절벽(context-cliff) 진단

컨텍스트 절벽 (context-cliff) 프로브는 패딩 (Corporate Policy 산문 — 현실적이고 밀도가 높지만, 의미론적으로는 무관함)으로 컨텍스트 윈도우 (context window)를 점진적으로 채워나가며, 모델이 시작 부분에 묻혀 있는 숨겨진 사실을 여전히 검색할 수 있는지 확인합니다.

단계 (Step)	프롬프트 토큰 (Prompt tokens)	정확도 (Accuracy)	상태 (Status)
1	829	100%	통과 (Pass)
2	2 134	100%	통과 (Pass)
3	3 903	100%	통과 (Pass)
4	6 072	100%	통과 (Pass)
5	7 902	100%	통과 (Pass)

판결: 약 8,000 토큰까지 정확도 유지. 컨텍스트가 증가함에 따라 모델은 대상 사실을 환각 (hallucinate)하거나 지어내지 (confabulate) 않습니다. 모델은 약 8k 토큰의 방해 노이즈 (distractor noise) 속에서도 신호를 유지합니다.

이 부분은 대부분의 README 수치들이 완전히 건너뛰는 벤치마크의 핵심입니다. 4k 토큰에서 성능이 저하되는 모델은 실제 리포지토리 (repo) 수준의 작업에는 무용지물입니다. north-mini-code-1.0은 여기서 성능 저하를 보이지 않습니다. 이는 대용량 파일이나 다중 파일 컨텍스트를 전달해야 하는 코딩 워크플로 (coding workflows)에서 진정한 긍정적 신호 (green flag)입니다.

3 · 에이전트 보고서 (Agent Report): 에이전트 신뢰성 (agentic reliability)

여기서부터 상황이 실질적으로 변합니다. 에이전트 보고서 (Agent Report)는 모델을 자율적인 코딩 에이전트 (autonomous coding agent)로 실행합니다. 모델은 도구 (tools)를 사용하고, 단계를 체이닝 (chain steps)하며, done을 올바르게 호출해야 합니다.

핵심 판결 (Executive verdict)

조건부 (CONDITIONAL) — Easy 단계는 통과하지만, 테스트된 가장 까다로운 단계인 Hard 단계에서 무너집니다. 하드웨어 등급: 워크스테이션 (Workstation, 64 GB RAM). 하드웨어는 HARD를 권장합니다.

단계 (Tier)	통과율 (Pass rate)	평균 단계 (Avg steps)	결과 (Result)
Easy	100% (Pass^5)	1.8	✅ 통과 (CLEAR)
...

실패 분류 (Failure taxonomy) (Easy + Hard 전체, 64개 추적 이벤트 기준)

실패 유형 (Failure type)	비중 (Share)	설명 (Description)
무한 루프 (InfiniteLoop)	83%	숨겨진 전제 조건을 해결하지 못함; 동작 반복
환각 (Hallucinated)	17%	완료(done)를 주장함 / 스키마 (schema) 외의 메서드 호출

가장 지배적인 실패 모드는 **루핑 (looping)**입니다. 모델이 표면화할 수 없는 전제 조건(prerequisites)을 해결하려다 막혀버리며, 막다른 길임을 인식하고 재계획(re-planning)하는 대신 동일한 도구 호출(tool calls)을 반복합니다. 8개의 미끼 도구(decoy tools)가 있는 28단계 호라이즌(Hard tier)에서, 모델은 목표에 도달하지 못한 채 실패하기 전까지 평균 7.4단계를 거칩니다.

환각 (Hallucination)은 부차적인 문제입니다. 조기에 done을 주장하거나 스키마 (schema)에 존재하지 않는 도구 이름을 호출하는 경우입니다. 실패 이벤트의 17%에서 나타나는 이 현상은 유의미하지만, 주요 차단 요인은 아닙니다.

실무적 의미

단순한 싱글 홉 (single-hop) 코딩 작업 — 함수 생성, 버그 수정, 코드 조각 설명 등 — 에 있어 이 모델은 빠르고 정확하며 문맥 유지력(context-stable)이 좋습니다. Easy tier 수치(100% Pass^5, 평균 1.8단계)가 이를 증명합니다.

다단계 에이전트 워크플로우 (multi-step agentic workflows) — 계획 수립, 여러 도구 호출에 걸친 의존성 해결(dependency resolution), 그리고 유연한 백트래킹 (backtracking)이 필요한 작업 — 에 있어서는 아직 신뢰할 수 없습니다. Hard tier에서 83%의 무한 루프 발생률은, 루프 탐지 레이어(loop-detection layer)나 상위의 더 강력한 오케스트레이션 모델 (orchestrating model) 없이 이 모델을 자율 코딩 에이전트의 백본 (backbone)으로 배포해서는 안 된다는 것을 의미합니다.

요약 (TL;DR)

차원	결과
속도	✅ 60.8 tok/s — 빠름
...
최적의 용도: 단발성 코딩 질의 및 문맥 집약적인 검색 작업을 위한 빠르고 로컬에서 실행 가능한 어시스턴트. 아직 즉시 투입 가능한 자율 에이전트 백본으로는 부적합함.

사용된 도구

QuantaMind — Inspector, Audit (Context-Cliff), Agent Report Github
Ollama — 모델 서빙 (model serving)

이 모델의 다른 양자화 (quantisation) 수준을 벤치마킹해 보셨나요? 댓글로 수치를 남겨주세요. mxfp4가 문맥 유지력 (context retention)을 희생하여 더 많은 VRAM 여유 공간을 확보하는지 궁금합니다.

Insights