본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 08. 21:03

현재 코딩을 위한 최고의 오픈 소스 LLM (2026년 6월)

요약

2026년 6월 기준 최신 오픈 웨이트 코딩 모델들의 성능과 새로운 벤치마크 기준을 분석합니다. HumanEval의 한계를 지적하며 SWE-bench Pro, Terminal-Bench 2.1 등 오염에 강한 실질적 지표를 제시합니다.

핵심 포인트

  • HumanEval의 데이터 오염 문제와 변별력 상실 지적
  • SWE-bench Pro 및 LiveCodeBench 등 신뢰할 수 있는 지표 강조
  • MiniMax M3 등 최신 오픈 웨이트 모델의 등장
  • 에이전트 기반 코딩 능력(Agentic Coding)의 중요성

리더보드가 다시 한번 바뀌었습니다. 2026년 4월에서 6월 사이에 최소 5개의 주요 오픈 웨이트 (open-weight) 코딩 모델이 출시되었으며, 그중 두 개는 대부분의 서구권 개발자들이 들어본 적 없는 연구소에서 나왔습니다. 만약 당신이 3개월 전의 "최고의 오픈 소스 LLM" 가이드를 읽었다면, 그것은 이미 틀린 정보입니다.

이 포스트는 2026년 6월 8일 기준으로 작성되었습니다. 아래의 모든 벤치마크 (benchmark) 수치에는 출처가 있습니다. 벤치마크가 연구소에 의해 자체 보고된 경우(대부분이 그러하며, 이에 대해서는 나중에 다루겠습니다), 그 사실을 명시합니다.

첫째: HumanEval 점수를 신뢰하는 것을 멈추십시오

HumanEval에서 85% 이상을 기록한 모델은 순위 산정 목적상 무시해도 좋습니다. 여기에는 Qwen, DeepSeek, Codestral, Llama가 포함되며, 이들 모두 현재 그 임계값을 넘었습니다. 해당 벤치마크는 포화 상태이며, 전반적으로 학습 데이터 오염 (training data contamination)에 대한 강력한 증거가 있습니다.

2026년에 실제로 변별력을 갖는 수치들:

SWE-bench Verified / SWE-bench Pro — 실제 GitHub 저장소와 버그 리포트가 주어졌을 때, 모델이 테스트를 통과시키는 패치 (patch)를 작성할 수 있는가? SWE-bench Verified (500개 작업) 자체도 오염되고 있으며, 현재로서는 SWE-bench Pro (1,865개 다국어 작업)가 더 어렵고 깨끗한 신호입니다. OpenAI는 오염 우려를 이유로 2026년 초에 SWE-bench Verified 점수 보고를 공식적으로 중단했습니다.

Terminal-Bench 2.1 — 장기적 CLI 작업: 스크립팅, DevOps 자동화, 터미널에서의 다단계 워크플로우. 단일 함수 벤치마크보다 속이기(game)가 더 어렵습니다.

LiveCodeBench — Codeforces, LeetCode, AtCoder에서 지속적으로 가져오는 경쟁 프로그래밍 문제. 데이터셋이 매달 업데이트되기 때문에 오염에 강합니다.

FIM pass@1 — 특히 자동 완성 (autocomplete)을 위한 지표. 모델이 접두사 (prefix)와 접미사 (suffix) 사이의 코드를 얼마나 정확하게 채워 넣는가? 이것이 실제로 당신의 Tab 키가 호출하는 기능입니다.

Agentic Coding (LiveBench) — 코딩 문맥에서의 다단계 작업 완료. "이 모델이 실제로 저장소에서 자율적으로 작업할 수 있는가?"를 판단하는 가장 유용한 대리 지표 (proxy)입니다.

이러한 기준을 세운 후 — 실제 현황을 살펴보겠습니다.

2026년 6월 리더보드 요약

| 모델 (Model) | SWE-bench Pro | Terminal-Bench 2.1 | 라이선스 (License) | 최적 용도 (Best For) |
| --- | --- | --- | --- |
| MiniMax M3 | 59.0% | 66.0% | 오픈 웨이트 (Open-weight, 가중치 대기 중) | 프론티어 코딩 + 1M 컨텍스트 |
| ... | |
해당되는 경우 연구소(labs)에서 자체 보고한 벤치마크(benchmarks)를 표기했습니다. SWE-bench Pro 점수는 표준화된 스캐폴딩 (scaffolding)을 사용했습니다. 수치는 2026년 6월 기준입니다.

1. MiniMax M3 — 무시할 수 없는 새로운 진입자 (2026년 6월 1일 출시)

요약 (TL;DR): 이 글을 쓰는 시점을 기준으로 출시된 지 일주일 되었습니다. 오픈 웨이트 (open-weight) 모델 중 최고 수준의 SWE-bench Pro 점수를 주장합니다. API는 활성화되어 있으나, 가중치 (weights)는 아직 공개되지 않았습니다. 신중한 회의론 (calibrated skepticism)을 가지고 접근하되, 아키텍처 (architecture) 자체는 진정으로 흥미롭습니다.

MiniMax는 7일 전인 2026년 6월 1일에 M3를 출시했습니다. API는 MiniMax의 플랫폼과 OpenRouter를 통해 사용할 수 있습니다. 출시 후 10일 이내에 오픈 웨이트 (open weights)와 기술 보고서 (technical report)를 공개하기로 약속했으므로, 6월 11일경 Hugging Face에 나타날 것으로 보입니다.

MiniMax가 주장하는 수치는 다음과 같습니다: SWE-bench Pro에서 59.0% (GPT-5.5 및 Gemini 3.1 Pro를 능가한다고 주장함), Terminal-Bench 2.1에서 66.0%, 컴퓨터 사용 능력에 대한 **OSWorld-Verified에서 70.06%**입니다. 이 모델은 1M 토큰 컨텍스트 윈도우 (context window)를 지원하며, 단일 아키텍처에서 텍스트, 이미지, 비디오 입력을 처리하는 네이티브 멀티모달 (natively multimodal) 모델입니다.

아키텍처 이야기는 실제로 매우 설득력이 있습니다. MiniMax는 MSA (MiniMax Sparse Attention)를 구축했는데, 이들은 MSA가 1M 토큰 컨텍스트에서 M2와 비교했을 때 토큰당 연산량은 1/20 수준이면서 프리필 (prefill)은 9배 이상, 디코딩 (decoding)은 15배 이상 빠르다고 설명합니다. 표준적인 풀 어텐션 (full attention)은 시퀀스 길이 (sequence length)가 길어짐에 따라 비용이 이차 함수적으로 증가하지만, MSA는 KV 캐시 (KV cache)를 블록 단위로 분할하고 각 KV 블록을 연속적인 메모리 액세스로 정확히 한 번씩만 읽는 "KV outer gather Q" 방식을 사용합니다. 만약 이러한 속도 향상 수치가 독립적인 테스트에서도 유지된다면, 이는 긴 컨텍스트 코딩 작업에 있어 엄청난 의미를 갖습니다.

지금 바로 알아야 할 사항:

M3의 모든 벤치마크 수치는 제조사 보고(vendor-reported) 데이터입니다. MiniMax는 Claude Code를 스캐폴딩(scaffolding)으로 사용하여 자체 평가를 수행했습니다. 아직 독립적인 검증 결과는 나오지 않았습니다. TechTimes는 MiniMax의 비교 기준점(baseline)이 최근 출시된 Opus 4.8이 아닌 Claude Opus 4.7을 사용했다는 점을 지적했습니다. 이는 M3가 출시 발표에서 암시된 것보다 프런티어(frontier) 모델들과 더 거리가 멀다는 것을 의미합니다.

추가 사항: MiniMax는 중국 법률에 따라 운영되는 상하이 기반의 연구소입니다. 만약 귀하의 조직에서 데이터 주권(data sovereignty)을 중요하게 여긴다면, 운영 중인 코딩 트래픽을 해당 API로 라우팅하기 전에 이는 실질적인 고려 사항이 될 것입니다.

출시 기념 프로모션 API 가격: 입력 1M(백만) 토큰당 약 $0.30, 출력 1M 토큰당 약 $1.20 (표준 요금인 $0.60/$2.40에서 50% 프로모션 할인 적용).

결론: 실험적인 모델에 대해 호기심이 있고 비용 감내 수준이 높다면, API를 통한 M3는 지금 바로 테스트해 볼 가치가 있습니다. 다만, 가중치(weights)가 공개되고 독립적인 평가 결과가 나올 때까지 이를 바탕으로 아키텍처 결정을 내리지는 마십시오.

2. GLM-5.1 — 8시간 모델 (2026년 4월 출시)

요약(TL;DR): 754B MoE(Mixture of Experts), MIT 라이선스, SWE-bench Pro 점수 58.4, 200K 컨텍스트(context). 몇 분이 아닌 몇 시간이 걸리는 작업을 위해 특별히 구축되었습니다. 이번 분기 가장 흥미로운 아키텍처적 주장입니다.

Z.AI(구 Zhipu AI)는 2026년 4월에 GLM-5.1을 출시했으며, 그 이후로 오픈 웨이트(open-weight) 코딩 리더보드 상단 또는 그 근처에 조용히 자리 잡고 있습니다. 이 모델은 SWE-bench Pro에서 58.4점을 기록하며, 해당 벤치마크에서 GPT-5.4와 Claude Opus 4.6을 능가했습니다 (자체 보고되었으나 LiveBench 데이터에 의해 뒷받침됨).

Z.AI가 특별히 강조하고 있는 능력 — 그리고 단순히 마케팅이 아닌 실제인 것으로 보이는 능력 — 은 바로 **장기적 자율 실행 (long-horizon autonomous execution)**입니다. 이 모델은 단일 복합 작업을 위해 최대 8시간 동안 지속적으로 작동하도록 설계되었습니다. 대부분의 LLM은 단일 턴 상호작용 (single-turn interactions)에 암묵적으로 최적화되어 있습니다. 즉, 명확한 질문을 던지면 깔끔한 답변을 받는 방식입니다. 반면 GLM-5.1은 더 어려운 작업, 즉 모델이 계획을 세우고, 수십 개의 의존적인 단계를 실행하며, 실패를 마주하고, 경로를 수정하며, 프로덕션급 (production-grade) 결과를 전달해야 하는 다단계 워크플로 (multi-stage workflows)를 위해 설계되었습니다.

Z.AI는 시연 사례로 이 모델이 8시간 이내에 처음부터 완전한 Linux 데스크톱 시스템을 구축하는 과정을 문서화했습니다. 이것이 귀하의 특정 엔지니어링 환경에서 재현 가능한지는 별개의 문제이지만, 반복적인 루프 (repetitive loops)로 퇴보하지 않고 지속적으로 실행되는 근본적인 능력은 다른 모델들이 수행하는 방식과 아키텍처적으로 구별됩니다.

벤치마크 현황:

  • SWE-bench Pro: 58.4 (출시 당시 오픈 웨이트 (open-weight) 모델 중 SOTA)

  • AIME 2026: 95.3

  • GPQA-Diamond: 86.2

  • Terminal-Bench 2.0: 63.5 (Claude Code 스캐폴딩 (scaffolding) 사용 시 66.5)

  • MCP-Atlas (Public Set): 71.8 — MCP가 프로덕션 에이전트 시스템의 표준이 됨에 따라 직접적인 관련성이 있음

  • CyberGym: 68.7 (GLM-5의 48.3에서 상승 — 상당한 도약)

754B MoE 아키텍처는 Hugging Face에서 MIT 라이선스로 제공됩니다. API 액세스의 경우 Z.AI의 플랫폼, SiliconFlow, 그리고 OpenRouter를 통해 이용 가능합니다. 로컬 배포는 SGLang (v0.5.10+), vLLM (v0.19.0+), 그리고 KTransformers를 통해 지원됩니다.

주목할 점 하나: 이 모델은 일반 지능 벤치마크에서 Claude Opus 4.6과 밀접하게 일치합니다. 이 모델은 프런티어 폐쇄형 모델 (frontier proprietary models)을 대체하는 것이 아니라, 이전 세대의 모델들을 무료로 따라잡고 있으며, 이것이 진정한 승리입니다.

결론: 단순히 질문에 답하고 다음 프롬프트를 기다리는 것이 아니라, 자율적으로 길고 복잡한 작업을 수행해야 하는 에이전트 (agents)를 구축하고 있다면, GLM-5.1은 해당 사용 사례를 위해 가장 목적에 맞게 설계된 오픈 웨이트 (open-weight) 모델입니다. 8시간 지속된다는 주장은 조사해 볼 가치가 있을 만큼 이례적입니다.

3. Kimi K2.6 — 최고의 종합 로컬 코딩 모델 (하드웨어가 뒷받침될 경우)

요약 (TL;DR): 총 1T / 활성 32B MoE (Mixture of Experts). SWE-bench Pro에서 58.6 기록. preserve_thinking 모드가 대화 턴(turns) 전반에 걸쳐 추론 상태 (reasoning state)를 유지함. 로컬에서 실행되는 에이전트 워크플로우 (agent workflows)를 위한 동급 최고의 모델.

Moonshot AI의 Kimi K2.6은 2026년 5월 LiveBench 스냅샷의 두 가지 핵심 코딩 지표 모두에서 최상위에 위치합니다: 코딩 평균 78.57 및 에이전트 코딩 (Agentic Coding) 평균 58.33. SWE-bench Pro에서는 58.6을 기록했습니다. 이는 실제로 로컬에서 실행할 수 있는 가장 강력한 오픈 웨이트 (open-weight) 모델입니다 — 다만 뒤에서 다룰 하드웨어 제약 사항이 있습니다.

실제 사용 시 중요한 아키텍처 (architectural) 세부 사항: K2.6은 대화 턴 전반에 걸쳐 전체 추론 흔적 (reasoning traces)을 유지하는 preserve_thinking 모드를 도입했습니다. 여러 메시지에 걸쳐 진행되는 복잡한 디버깅 (debugging) 세션의 경우, 대부분의 모델은 세 번 전의 대화에서 무엇을 추론했는지 사실상 잊어버립니다. preserve_thinking 기능이 포함된 K2.6은 일관된 추론 상태를 유지합니다. 이는 문맥 (context)을 다시 설명할 필요가 줄어들고, 더 일관된 다단계 진단이 가능하다는 것을 의미합니다. 이는 대화형 엔지니어링 세션에서 이 모델을 사용하는 모든 이들에게 진정한 삶의 질(quality-of-life) 향상을 제공합니다.

또한 K2.6은 에이전트 스웜 오케스트레이션 (agent swarm orchestration) — 즉, 여러 하위 에이전트 (sub-agents)를 병렬로 조정하는 능력을 도입했습니다. 서로 다른 에이전트가 코드베이스의 각기 다른 부분을 동시에 처리하는 코딩 파이프라인 (coding pipeline)을 구축하고 있다면, 이 모델이 이를 네이티브 아키텍처로 지원하는 모델입니다.

ollama pull kimi-k2.6

하드웨어 현실 (그냥 지나치지 마세요):

K2.6는 총 파라미터(parameter) 수가 1조 개인 MoE (Mixture-of-Experts) 모델입니다. 소비자용 하드웨어의 경우 양자화 (quantization)가 필요하며, 그럼에도 불구하고 상당한 메모리가 요구됩니다. 128GB 통합 메모리 (unified memory)를 갖춘 M4 Ultra Mac Studio에서는 실행이 가능합니다. 듀얼 RTX 4090 (48GB VRAM) 환경에서는 양자화된 버전이 작동합니다. 하지만 단일 24GB 그래픽 카드에서는 실행되지 않습니다. 무리하게 시도하지 마세요.

하드웨어를 갖추고 있다면, K2.6는 현재 최고의 로컬 코딩 모델입니다. 그렇지 않다면 다음 섹션을 읽어보시기 바랍니다.

결론 (Bottom line): 수정된 MIT 라이선스 (Modified MIT license)를 따릅니다. HuggingFace 가중치 (weights)를 사용할 수 있습니다. 멀티 GPU 설정을 갖춘 팀이나 대용량 통합 메모리를 가진 M-시리즈 Mac 사용자에게 이 모델은 로컬에서 실행해야 할 모델입니다. 그 외의 모든 사용자에게는 로컬 모델보다는 API 타겟으로 고려하는 것을 권장합니다.

4. Qwen3.6-35B-A3B — 단일 GPU의 제왕 (2026년 4월 16일 출시)

요약 (TL;DR): Apache 2.0 라이선스. 262K 컨텍스트 (context). SWE-bench Verified 73.4%. 총 35B 파라미터 중 3B의 활성 파라미터 (active parameters). 24GB 그래픽 카드 또는 32GB 메모리를 갖춘 M-시리즈 Mac에서 실행 가능. 대부분의 개발자를 위한 모델입니다.

헤드라인이 1조 파라미터 규모의 괴물 모델들에 집중되는 동안, Alibaba는 2026년 4월 16일에 Qwen3.6-35B-A3B를 조용히 출시했으며, 이는 일반적인 개발자에게 실질적으로 가장 유용한 오픈 코딩 모델이라고 할 수 있습니다.

MoE 아키텍처는 총 35B 파라미터 중 토큰당 3B 파라미터만을 활성화합니다. 이는 추론 비용 (inference cost) 측면에서 3B 모델을 실행하는 것과 비슷하면서도, 전체 35B 파라미터 공간의 능력을 활용한다는 것을 의미합니다. 그 결과: 소비자용 하드웨어에 적합하며, 사용 가능한 속도로 실행되고, 코딩 벤치마크에서 체급을 훨씬 뛰어넘는 성능을 보여줍니다.

SWE-bench Verified에서 73.4% 달성 — 단일 RTX 4090 또는 32GB 메모리를 갖춘 M-시리즈 Mac에서 실행되는 모델이 기록한 수치입니다. 이 수치는 12개월 전 대형 클라우드 모델들이 기록하던 점수와 경쟁할 만한 수준입니다.

추가적인 벤치마크 맥락:

  • Terminal-Bench 2.0: 51.5% — 해당 하드웨어 계층 대비 강력한 성능

  • 262K 네이티브 컨텍스트 (native context), Yarn을 통해 약 1M까지 확장 가능

  • 사고 보존 (Thinking preservation, 이번 릴리스의 새로운 기능): 이전 메시지로부터 추론 컨텍스트 (reasoning context)를 유지하여, 반복적인 개발 세션에서의 오버헤드(overhead)를 줄임

  • 에이전틱 코딩 (agentic coding)을 위해 특별히 설계됨 — 저장소 수준의 추론 (repository-level reasoning), 도구 호출 (tool calling), 다단계 워크플로우 (multi-step workflows)

# Ollama - Mac and Linux
ollama run qwen3.6:35b-a3b

...

Apache 2.0 라이선스는 현재 사용 가능한 가장 깔끔한 라이선스입니다. 상업적 제한이나 이상한 예외 조항이 없습니다. Alibaba의 허락을 구할 필요 없이 파인튜닝 (fine-tune)을 하거나, 제품에 배포하거나, 가중치 (weights)를 수정할 수 있습니다.

대상: 이 모델은 기업용 GPU 인프라 없이도 진지한 로컬 코딩 모델을 원하는 개인 개발자와 소규모 팀에게 기본적으로 권장되는 모델입니다. 하드웨어 요구 사항은 단일 24GB 그래픽 카드 또는 M-시리즈 Mac 수준입니다. 품질 수준은 프런티어 (frontier) 모델에 근접합니다.

결론: 단일 4090을 보유하고 있거나 32GB 이상의 RAM을 갖춘 Mac을 사용 중이라면, 여기서 시작하십시오. 성능과 하드웨어 요구 사항 사이의 트레이드오프 (tradeoff)가 이 목록에 있는 다른 어떤 모델보다 뛰어납니다.

5. Qwen3-Coder 480B-A35B — 에이전틱 파워하우스 (API를 통해 사용)

요약 (TL;DR): 총 480B / 활성 35B MoE (Mixture of Experts). 에이전틱 코딩 벤치마크에서 Claude Sonnet 4와 대등한 수준. 256K 네이티브 컨텍스트, 외삽 (extrapolation) 시 1M. 현재 OpenRouter에서 무료로 이용 가능. 로컬이 아닌 API를 통해 실행하십시오.

2025년 7월에 출시된 Alibaba의 Qwen3-Coder는 API를 통해 무거운 에이전틱 코딩 워크플로우를 실행하는 팀들에게 기본 오픈 웨이트 (open-weight) 모델이 되었습니다. 480B-A35B-Instruct 변형 모델은 현재까지 Alibaba가 내놓은 가장 강력한 에이전틱 코더이며, 현대의 코딩 에이전트가 수행하는 작업, 즉 함수 호출 (function calling), 도구 사용 (tool use), 그리고 전체 저장소에 대한 긴 컨텍스트 추론 (long-context reasoning)을 위해 특별히 설계되었습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0