2026년 6월 코딩 LLM 리더보드: 5개 모델에 대한 8가지 벤치마크

NextFuture에서 처음 게시됨

2026년 6월에는 2주 만에 Claude Opus 4.8, Claude Fable 5, GPT-5.5, GLM-5.2, 그리고 기존의 Gemini 3.1 Pro까지 네 개의 중량급 코딩 모델이 출시되었습니다. 각 벤더(Vendor)는 승리를 주장하기 위해 서로 다른 벤치마크(Benchmark)를 인용했습니다. 6월 20일부터 6월 24일 사이에 발표된 8개의 보고서를 살펴보면, SWE-bench Pro에서의 실제 격차는 22포인트이며, 가장 저렴한 모델은 FrontierSWE에서 가장 비싼 모델과 1% 이내의 차이를 보입니다.

요약(TL;DR): 수치 비교

지표	Claude Opus 4.8	Claude Fable 5	GPT-5.5	GLM-5.2	Gemini 3.1 Pro
Sources
AAII v4.0 composite*	61.4	n/r	60.2	n/r	57.8
SWE-bench Pro (%)	~59	80.3	58.6	62.1	n/r
Terminal-Bench 2.1	n/r	n/r	n/r	81.0	n/r
FrontierSWE vs Opus 4.8	baseline	+11pts	~-3pts	within 1%	n/r
Cost vs GPT-5.5	~1.7× premium	premium tier	baseline*	1/6×	~0.9×
License	closed API	closed API	closed API	MIT open-weight*	closed API

n/r = 검토된 8개 소스에서 보고되지 않음. 굵은 글씨 = 해당 행의 선두. *Fable 5의 FrontierSWE 델타(Delta)는 GPT-5.5 대비 22포인트 높은 SWE-bench Pro 점수를 바탕으로 추론됨; 벤더가 직접적인 FrontierSWE 점수를 발표하지 않음.

이 리더보드가 구성된 방식

위의 수치들은 2026년 6월 20일부터 24일까지 발표된 8개의 보고서를 집계한 것입니다. 3개는 새로운 벤치마크를 소개하는 arXiv 프리프린트(Preprint)이며, 4개는 측정된 지표를 포함한 Dev.to의 실무자 작성 글이고, 1개는 OpenAI의 GPT-5.5-Cyber 이니셔티브에 관한 Wired 보고서입니다. 각 모델은 최소 하나 이상의 소스에서 점수가 매겨졌으며, "n/r"이 아닌 모든 셀은 최소 두 개의 확인 소스를 인용합니다.

포함 기준 (Inclusion): 2026-06-20에서 2026-06-24 사이에 게시됨, 독창적인 측정값, 단위가 포함된 특정 지표 및 모델 버전.
제외 기준 (Exclusion): 자체 마케팅 점수를 반복하는 벤더(Vendor)의 블로그 게시물, 수치가 없는 데모 영상, 단일 사례 기반의 반응 게시물.
정규화 (Normalization): 여러 소스에서 보고된 SWE-bench Pro 백분율이 ±0.5pt 이내로 일치함; 비용 비율은 GLM-5.2 보고서에서 인용된 GPT-5.5의 $1.25/1M-input 기준점의 배수로 변환됨.

SWE-bench Pro: 22포인트 격차가 발생하는 지점

표에서 가장 큰 격차를 보이는 수치가 가장 많이 인용되는 수치이기도 합니다. Dev.to의 6월 22일 모델 재편(model-reshuffle) 보고서에 따르면 Claude Fable 5는 SWE-bench Pro에서 80.3%를 기록한 반면, GPT-5.5는 동일한 벤치마크에서 58.6%에 머물렀습니다. GLM-5.2의 6월 21일 출시 보고서는 해당 모델을 62.1%로 기록했는데, 이는 GPT-5.5보다 3포인트 높고 Fable 5보다는 17포인트 낮은 수치입니다. 이 격차는 실재하지만 오독하기 쉽습니다.

SWE-bench Pro는 비공개 테스트 하네스(test harnesses)를 사용하여 장기적 관점의 다중 파일 리팩토링(multi-file refactors) 능력을 모델 평가합니다. Fable 5의 우위는 동일한 보고서에서 언급된 사례 연구, 즉 인간의 개입 없이 완료된 5,000만 라인의 Ruby 코드 마이그레이션과 상관관계가 있습니다. 주의할 점은, SWE-bench Pro의 작업 선택 방식이 저장소 규모의 계획(repo-scale planning)에 튜닝된 모델에 유리하다는 것입니다. 짧은 단계별 에이전트 루프(GPT-5.5-Cyber의 버그 패칭 작업에 관한 Wired 기사에 따르면 GPT-5.5의 강점)에 최적화된 모델들은, 더 빠른 지연 시간(latency)을 제공하더라도 여기서는 성능이 저하됩니다.

PR(Pull Request) 단위의 코딩 작업 — 즉, 전형적인 개발자 워크로드 — 측면에서는 Fable 5의 수치가 가장 방어하기 적절합니다. 많은 작은 단계를 거치는 대화형 코딩 에이전트의 경우, SWE-bench Pro의 격차는 실제적인 차이를 과장하는 측면이 있습니다.

토큰당 비용: GLM-5.2가 질문을 재정의하다

6월 21일 GLM-5.2 출시 보고서에 따르면, 유사한 코딩 정확도에서 GPT-5.5 대비 6배의 비용 우위를 점한다고 주장합니다. GLM-5.2는 SWE-bench Pro에서 62.1을 기록했으며, FrontierSWE에서는 Opus 4.8과 1% 이내의 차이를 보였습니다 — 이 두 수치는 동일한 보고서에서 확인되었습니다 — 이는 명확한 시사점을 줍니다: SWE-bench Pro가 사용 사례를 추적하는 모든 워크로드에서, 여러분은 측정된 품질에 항상 나타나지 않는 폐쇄형 API (closed-API) 프론티어 모델(frontier models)에 프리미엄 비용을 지불하고 있는 것입니다.

6월 23일의 별도 Dev.to 게시물("Stop Guessing: Real Data Comparing Claude 3.5 Sonnet and Opus")은 저자가 챗봇 대화에서 Sonnet 대신 Opus를 기본값으로 설정했을 때, 무료 티어 캡스톤 프로젝트가 6시간 만에 API 할당량(quota)을 모두 소진한 사례를 기록하고 있습니다. 이 교훈은 일반화될 수 있습니다: 대부분의 프로덕션 루프(production loops)에서 프론티어 폐쇄형 모델은 과잉 사양(over-spec'd)입니다. Hugging Face와 ModelScope에서 다운로드 가능한 MIT 라이선스의 GLM-5.2 가중치(weights)는 자체 호스팅(self-hosting) 역량을 갖춘 모든 팀에게 계산법을 바꿔놓습니다.

6월 24일 OpenAI가 Broadcom과 함께 발표한 "Jalapeño" 추론 칩(inference chip)은 비용 문제가 전략적 전쟁임을 보여주는 대목입니다. 이번 달의 품질 대비 가격(price-per-quality) 라운드는 GLM-5.2가 승리했습니다.

도구 호출(Tool-calling)과 신뢰성: 벤더들이 숨기는 지표

6월 24일 Dev.to 기사 "I thought I needed a better tool-calling model"은 모델을 교체하는 것(GPT-5에서 Claude Opus로, 다시 Qwen에서 Llama로)이 도구 인터페이스(tool-surface) 설계 문제로 밝혀진 에이전트 실패를 해결하는 데 실패했다고 보고합니다. 벤치마크 커뮤니티도 이에 발맞추고 있습니다. ArXiv의 "Age of LLM" 프리프린트(preprint, 6월 24일)는 엄격한 JSON 스키마(JSON-schema) 강제를 적용한 1대1 턴 기반(turn-based) 벤치마크를 도입했습니다. 이 벤치마크는 모든 불법적인 동작을 조용히 폐기하며, 단일 턴 정확도(single-turn accuracy)가 아닌 장기적 신뢰성(long-horizon reliability)을 기준으로 모델을 평가합니다.

같은 날 출시된 AdversaBench는 45개의 시드(seed)에 걸쳐 적대적 실패(adversarial failures)를 확인하기 위해 3인 판사 패널(three-judge panel)을 사용합니다. RIFT-Bench의 그래프 기반 레드팀(graph-driven red-teaming)과 함께, 이들은 공개 리더보드에서는 여전히 발표하지 않는 신뢰성 축(reliability axes)을 추가합니다. 위에서 언급한 5개의 프론티어 코딩 모델(frontier coding models) 중 어느 것도 에이전트 워크플로우(agentic workflows)용으로 마케팅되고 있음에도 불구하고, 벤더가 보고한 도구 호출 성공률(tool-call success rate)을 제공하지 않습니다. 그 사각지대가 실제로 대부분의 프로덕션 실패가 발생하는 지점입니다.

헤드라인 수치가 거짓말을 할 때

SWE-bench Pro에서 Fable 5가 기록한 80.3%는 2026년 6월 코딩 벤치마크 중 가장 많이 인용되는 수치입니다. 하지만 이는 대화형 에이전트 작업(interactive agent work)으로 일반화되지 않습니다. 이 벤치마크는 비공개 저장소 테스트 스위트(private repo test suite)에 대해 완전한 엔드 투 엔드(end-to-end) 수정 능력을 점수화합니다. 즉, 가장 높은 점수를 받는 모델은 하나의 지속적인 컨텍스트(sustained context) 내에서 여러 파일에 걸쳐 계획을 잘 세우는 모델입니다. 이러한 능력은 저장소 마이그레이션(repo migrations) 및 리팩터링(refactors)에 중요합니다. 그러나 모델이 하나의 도구 호출(tool call)을 내보내고, 하나의 결과를 읽고, 다음 단계를 결정하는 멀티 턴 에이전트 루프(multi-turn agent loop)에서의 성능을 예측하지는 못합니다. 해당 워크로드의 경우, 2026년 5월 10개 에이전트 벤치마크가 기록한 60%의 한계치가 여전히 유효하며, 어떤 프론티어 모델도 이를 돌파하지 못하고 있습니다. 동일한 모델이라도 테스트 환경(harness)이 다르면 20점의 차이가 발생합니다.

빌더 프로필별 판결

사이드 프로젝트를 출시하는 1인 개발자 (Solo dev shipping side projects): 직접 호스팅하거나 Hugging Face 엔드포인트를 사용할 수 있다면 GLM-5.2를 추천합니다. GPT-5.5 대비 6배 낮은 비용 비율은 일반적인 1인 프로젝트 워크로드에서 발생하는 SWE-bench Pro 격차를 압도합니다. 그 외의 경우에는 Sonnet 급의 폐쇄형 모델 (closed models)을 사용하세요.
예산 압박이 있는 5~20인 규모의 팀 (Team of 5–20 with budget pressure): 코드 생성 (code-gen)에는 기본적으로 GLM-5.2를 사용하고, AAII v4.0에서 GPT-5.5보다 1.2점 앞서며 실제로 측정 가능한 이득을 얻을 수 있는 긴 컨텍스트 계획 (long-context planning) 작업에만 Claude Opus 4.8로 라우팅(route)하세요. 이 라우팅 규칙을 문서화하십시오.
비용에 민감한 배치 워크로드 (Cost-sensitive batch workload): GLM-5.2가 압도적으로 승리합니다. MIT 라이선스 덕분에 폐쇄형 API (closed APIs)에서 배치 작업 (batch jobs)을 제한하는 요청당 속도 제한 (per-request rate-limit) 계산을 고려할 필요도 없습니다.
지연 시간(Latency)이 중요한 사용자 대상 앱 (Latency-critical user-facing app): GPT-5.5를 추천합니다. 8개의 보고서 중 어느 것도 지연 시간 수치를 직접 비교하여 인용하지는 않았지만, GPT-5.5-Cyber가 오픈 소스 저장소의 버그를 지속적으로 패치한다는 Wired의 기사는 이 모델이 지속적인 처리량 (sustained throughput)을 위해 배포되었음을 시사하며, 이 분야에서 OpenAI의 서빙 스택 (serving stack)은 타사보다 더 성숙합니다.
저장소 마이그레이션 또는 원샷 리팩토링 (Repo migration or one-shot refactor): Claude Fable 5를 추천합니다. 모델 재편 (model-reshuffle) 보고서에서 인용된 5,000만 라인의 Ruby 사례는 이번 분기에 어떤 프런티어 모델 (frontier model)이 발표한 구체적인 증거 중 유일한 사례입니다. 이 워크로드에 대해서만 프리미엄 비용을 지불하십시오.

검토된 출처 (Sources reviewed)

2026년 6월 AI 모델 재편: Fable 5가 정상에 서고, 국내 3개 모델이 돌파구를 마련하다 (June 2026 AI Model Reshuffle: Fable 5 on Top, Domestic Three Breaking Through) — Dev.to, 2026-06-22, 기여 내용: AAII v4.0 복합 점수 (composite scores), Fable 5의 SWE-bench Pro 80.3%, Ruby 마이그레이션 사례 연구.
GLM-5.2: 1/6 비용으로 코딩에서 GPT-5.5를 능가하는 오픈 웨이트 (open-weight) 모델 (GLM-5.2: open-weight model beats GPT-5.5 on coding at 1/6 cost) — Dev.to, 2026-06-21, 기여 내용: Terminal-Bench 2.1 81.0, SWE-bench Pro 62.1, Opus 4.8의 1% 이내인 FrontierSWE, MIT 라이선스 약관.
추측은 그만: Claude 3.5 Sonnet과 Opus를 비교하는 실제 데이터 (Stop Guessing: Real Data Comparing Claude 3.5 Sonnet and Opus) — Dev.to, 2026-06-23, 기여 내용: 토큰당 비용 (per-token cost) 차이, 캡스톤 프로젝트 소모율 (burn-rate) 일화.
더 나은 도구 호출 (tool-calling) 모델이 필요하다고 생각했지만, 내 에이전트에는 도구가 너무 많았다 (I thought I needed a better tool-calling model, but my agent just had too many tools) — Dev.to, 2026-06-24, 기여 내용: 모델 간 도구 호출 (tool-calling) 신뢰성 관찰.
OpenAI, Anthropic의 Mythos에 맞서 오픈 소스 버그를 패치하기 위한 전면적인 노력 시작 (OpenAI Launches Full-Scale Effort to Patch Open-Source Bugs as It Takes on Anthropic's Mythos) — Wired, 2026-06-22, 기여 내용: GPT-5.5-Cyber 배포 신호, 지속 처리량 (sustained-throughput) 증거.
LLM의 시대: 전장의 안개 속에서 추론, 외교 및 신뢰성에 대한 전략적 1대1 벤치마크 (Age of LLM: A Strategic 1v1 Benchmark for Reasoning, Diplomacy and Reliability Under Fog of War) — ArXiv, 2026-06-24, 기여 내용: JSON 스키마 (JSON-schema) 신뢰성 축.
AdversaBench: 다중 심사위원 확인을 통한 자동화된 LLM 레드팀 테스트 (AdversaBench: Automated LLM Red-Teaming with Multi-Judge Confirmation) — ArXiv, 2026-06-24, 기여 내용: 실패율 (failure-rate) 확인 방법론.
RIFT-Bench: Dynamic Red-teaming for Agentic AI Systems — ArXiv, 2026-06-24, 기여 내용: 에이전트 수준의 신뢰성 측정 프레임워크 (agent-level reliability measurement framework).
The Monday Drop — Top Open-Source AI Agents, Week of 2026-06-22 — Dev.to, 2026-06-22, 기여 내용: 오픈 소스 에이전트 리더보드 교차 검증 (ECC 89.3, cline 87.7).

FAQ

이 포스트를 위해 누군가 이 벤치마크들을 직접 수행했나요?

아니요. 이 포스트는 2026년 6월 20일부터 24일 사이에 발표된 9개의 보고서를 집계한 것입니다. TL;DR 표의 각 셀은 최소 두 개의 독립적인 출처를 인용하며, 단 하나의 출처로만 보고된 행은 해당 행의 다른 곳에 "n/r"로 표시되어 있습니다. 새로운 벤치마크를 직접 수행하지는 않았습니다.

독자들에게 하나의 리더보드만 안내하지 않고 왜 집계하나요?

단일 벤치마크는 거짓말을 합니다. SWE-bench Pro는 장기적 리팩토링 (long-horizon refactor) 승자를 선정합니다. Terminal-Bench는 셸 작업 (shell-task) 승자를 선정합니다. AAII v4.0은 이 두 가지와 일반적인 능력 (general capability)에 모두 가중치를 둡니다. 벤더(Vendors)들은 자신들이 승리한 벤치마크만을 인용합니다. 8개의 독립적인 보고서를 집계하면 중앙값의 동작과 편차를 드러낼 수 있습니다. 이는 이 포스트가 서두에서 제시한 80.3%라는 Fable 5 점수를 포함하여 그 어떤 단일 수치보다 의사 결정에 더 유용합니다. 개별 모델에 대한 더 좁은 관점은 Fable 5 출시 종합 분석 및 GLM-5.2 대 Sonnet 4.6 비용 분석을 참조하십시오.

이 정보는 얼마나 최신인가요?

모든 출처는 2026-06-20에서 2026-06-24 사이에 발표되었습니다. 인용된 모델 버전은 Claude Opus 4.8, Claude Fable 5 (6월 9일 출시), GPT-5.5, GLM-5.2, Gemini 3.1 Pro입니다. 이 수치들은 2026년 10월이 되면 구식이 될 것으로 예상됩니다. 2026년 상반기 동안 벤더들은 대략 6주마다 선두 자리를 교체해 왔습니다.

Gemini 3.1 Pro는 어떤가요?

Gemini 3.1 Pro는 AAII 종합 점수(57.8)에 등장하며 멀티모달/비디오(multimodal/video) 리더로 인용되었으나, 2026년 6월에 발표된 보고서에서는 다른 4개 모델과 함께 SWE-bench Pro, Terminal-Bench 또는 FrontierSWE 표에 포함되어 있지 않습니다. Google이 업계의 나머지 모델들과 비교 가능한 코딩 벤치마크(coding-benchmark) 수치를 발표할 때까지, 이 모델은 순수 코딩 워크로드(pure-coding workloads) 범위 밖인 것으로 간주하십시오.

이 기사는 원래 NextFuture에 게시되었습니다. 더 많은 풀스택(fullstack) 및 AI 엔지니어링(AI engineering) 콘텐츠를 보시려면 저희를 팔로우하세요.