GLM-5.2 vs Anthropic Mythos: 프로덕션 코드베이스에서의 LLM 버그 탐지를 위한 공정한 벤치마크 설계

CoreProse KB-incidents에 최초 게시됨

개발자들은 이제 디버깅을 위해 AI를 사용할 것인지(whether)를 묻지 않고, 지연 시간(latency), 보안, 비용과 같은 제약 조건 하에서 어떤 시스템(which system)이 실제 버그를 안정적으로 제거할 수 있는지를 묻습니다. 인라인 코파일럿(Inline copilots, 예: GitHub Copilot)과 에이전틱 도구(agentic tools, 예: Claude Code)는 이미 두 가지 스타일, 즉 빠른 완성(quick completions) 대 장시간 실행되는 계획 에이전트(planning agents)를 보여주고 있습니다.[1]

GLM-5.2와 Anthropic Mythos는 이러한 분리를 반영합니다. 하나는 모델 중심(model-centric)에 더 가깝고, 다른 하나는 에이전트 중심(agent-centric)에 더 가까우며, 둘 다 프로덕션 규모의 코드 이해를 목표로 합니다.

이제 팀들은 유행(hype)이 아니라 워크플로, 생태계, 신뢰성을 바탕으로 ChatGPT, Gemini, Copilot, Claude, Perplexity, Grok 중에서 선택합니다.[3] 그러나 보안 및 침투 테스트(pentesting) 팀의 보고에 따르면, 많은 조직이 패치가 안전한지 검증하지 않은 채 어시스턴트를 도입하고 있으며, 나중에 감사(audit) 단계에서야 취약점을 발견하고 있습니다.[2]

SWE-bench Verified와 같은 벤치마크는 엔드 투 엔드(end-to-end) 버그 해결 능력에 있어 프런티어 모델(frontier models, 예: Claude Sonnet 대 GPT 기반 Copilot) 사이에 상당한 격차가 있음을 보여주며, 이는 두 모델 모두 채팅 환경에서는 인상적으로 보일 때조차 마찬가지입니다.[1] 이는 더 넓은 패턴을 반영합니다: 생성형 AI(gen-AI) 이니셔티브의 30% 미만이 프로덕션에 도달하며, 이는 주로 취약한 평가, 거버넌스(governance) 및 견고성(robustness) 때문입니다.[4]

이 기사는 GLM-5.2와 Mythos의 버그 탐지 능력을 비교하기 위해 재현 가능하고 엔지니어링 수준의 벤치마크 및 아키텍처를 정의합니다. 이는 실제 저장소(repository)에서의 엔드 투 엔드(end-to-end) 이슈 해결을 다루며, 정확도(accuracy), 회귀(regressions), 지연 시간(latency), 이슈당 비용(cost per issue), 그리고 보안 영향(security impact)에 대한 지표를 포함합니다.[8]\lbrack2\rbrack

왜 버그 탐지를 위해 GLM-5.2와 Anthropic Mythos를 비교하는가?

2026년 현재, 코딩 어시스턴트는 기본 도구입니다. 문제는 어떤 어시스턴트가 귀하의 디버깅 및 보안 태세(security posture)에 적합한가 하는 점입니다.[2]\lbrack3\rbrack

GLM-5.2: 고용량(high-capacity) 범용 LLM으로, IDE나 백엔드 서비스에 통합하기 쉽습니다.
Mythos: Anthropic 스타일의 에이전트 시스템(agentic system)으로, 긴 세션 동안 다단계 계획과 도구를 조율하는 Claude Code의 롱러닝(long-running) CLI 에이전트와 유사합니다.[1\rbrack

💡 핵심 대조점

GLM-5.2:
- 강력한 싱글샷(single-shot) 추론.
- 유연한 통합 및 낮은 지연 시간(low-latency) 활용.
Mythos:
- 많은 파일에 걸친 구조화된 계획(structured plans)에 최적화됨.
- 계획 모드(plan-mode)/워크트리(worktrees)와 유사한 자율적 워크플로(autonomous workflows).[1\rbrack

보안 전문가들은 반복되는 실패 패턴을 강조합니다:[2\rbrack

팀들이 테스트 통과율(test-pass rate)만 평가함.
어시스턴트가 다음과 같은 "작동하는" 패치를 생성함:
- 권한 확인(authorization checks) 우회.
- 인젝션 벡터(injection vectors) 도입.
- 검증(validation) 또는 암호화(crypto) 약화.
이러한 이슈들은 몇 달 후 침투 테스트(pentests) 및 감사(audits)에서 드러남.

📊 SWE-bench Verified 보고서에 따르면, 동일한 하네스(harness) 환경에서 Claude Sonnet 4.6은 작업의 약 70.6%를 해결한 반면, GPT-5 기반의 Copilot 변형 모델은 약 65.8%를 해결했습니다.[1\rbrack 이 격차는 운영 측면에서 의미가 있으며, 버그 유형과 저장소에 따라 달라집니다.

따라서 GLM-5.2와 Mythos의 비교는 모든 진지한 생성형 AI(gen-AI) 배포와 마찬가지로 다음과 같이 수행되어야 합니다:

명확한 목표 및 거버넌스(governance).
반복 가능한 평가 스택(evaluation stack).
단순한 "와우 데모(wow demos)"가 아닌, 정확성, 회귀, 보안을 아우르는 지표.[2]\lbrack4\rbrack\lbrack8\rbrack

소결론 (Mini-conclusion): 버그 탐지를 위해 GLM-5.2와 Mythos를 비교하는 것은 엔지니어링적인 결정입니다. 현실적인 제약 조건 하에서 정확성 (correctness), 회귀 (regressions), 그리고 보안 (security)을 측정할 수 있는 프레임워크가 필요합니다.[2][8]

평가 프레임워크: "더 나은 버그 탐지"란 무엇을 의미하는가?

모델을 교체하기 전에, 무엇이 "더 나은" 것인지 정의하고 이를 측정할 도구를 갖추어야 합니다. 프로덕션 LLM 플레이북 (playbooks)은 튜닝을 수행하기 전에 정확도 (accuracy), 재현율 (recall), 환각 (hallucinations), 지연 시간 (latency), 그리고 비용을 정량화하는 것을 강조합니다.[8]

핵심 결과 지표 (Core outcome metrics)

우리는 버그 탐지를 실제 저장소 (repos)에서의 SWE-bench 스타일의 엔드 투 엔드 (end-to-end) 이슈 해결로 취급합니다.[1] 각 이슈에 대해:

완전 해결 (Full resolution):
- 모든 테스트 통과.
- 패치 (patch)가 정답 (ground-truth) 동작과 일치함.
부분 해결 (Partial resolution):
- 일부 테스트는 통과하지만, 다른 테스트는 실패하거나 엣지 케이스 (edge cases)가 누락됨.
미해결 (Unresolved):
- 테스트가 여전히 실패하거나 패치를 적용할 수 없음.
회귀율 (Regression rate):
- 이전에 통과했던 테스트를 깨뜨리는 수정 사항의 비율.[1][8]

⚠️ 테스트만으로는 불충분합니다. 많은 보안 이슈들이 테스트 커버리지 (test coverage)가 부족하므로, 다음을 추가합니다:

정적 분석 (Static analysis) 체크.
적대적 보안 테스트 케이스 (Adversarial security test cases).[2]

환각 (Hallucinations) 및 설명 품질

대부분의 디버깅 워크플로우는 "왜 이 버그가 발생했는가?"를 묻습니다. 우리는 다음을 점수화합니다:

설명 환각 (Explanation hallucinations):
- 존재하지 않는 API나 설정 플래그 (config flags)를 만들어냄.
- 언어나 프레임워크의 의미론 (semantics)을 잘못 설명함.
오도하는 보안 주장 (Misleading security claims):
- 코드가 명백히 그렇지 않음에도 "X에 대해 안전함"이라고 선언함.[2]

LLM 평가 프레임워크는 다음을 권장합니다:

대규모 점수 산정을 위한 모델 기반 평가 (Model-as-a-judge).
명백한 환각을 잡아내기 위한 규칙 기반 탐지기 (Rule-based detectors).[8]

지연 시간 (Latency), 처리량 (throughput), 그리고 비용

각 디버깅 세션에 대해 다음을 기록합니다:

첫 번째 프롬프트부터 테스트 통과까지의 중앙값 / p95 지연 시간 (Median / p95 latency).
도구 호출 횟수 (Number of tool calls) (검색, 테스트 실행, diff).
소비된 토큰 (Tokens consumed) 및 해결된 이슈당 유효 비용 (effective cost per resolved issue).[5][8]

Transformer의 컨텍스트 제한(context limits)과 긴 컨텍스트에서의 비선형적 비용(non-linear cost)을 고려할 때, 이러한 지표들은 저장소(repo) 규모와 작업 복잡도가 증가함에 따라 각 시스템이 어떻게 동작하는지를 보여줍니다.[5]

버그 분류 체계 (Bug taxonomies)

우리는 이슈를 다음과 같이 분류합니다:

로직 및 오프 바이 원 (off-by-one) 오류.
동시성 (concurrency) 및 레이스 컨디션 (race conditions).
통합 (integration) 및 설정 (configuration) 이슈.
보안 취약점 (인증, 인젝션, 암호화 오용).

이는 일상적인 코딩 작업과 보안 중심 작업에서 서로 다른 도구들이 탁월한 성능을 보인다는 어시스턴트 비교 연구를 반영합니다.[2][3]

💼 실질적인 효과:

Mythos와 같은 에이전트는 다중 파일 로직 또는 통합 버그에서 우위를 점할 수 있습니다.
GLM-5.2는 범위가 명확한 로컬 버그에서 더 빠르고 저렴할 수 있습니다.

소결론: "더 나은 버그 탐지"는 성공률, 회귀 (regressions), 환각 (hallucinations), 지연 시간 (latency), 그리고 이슈당 비용을 포괄하며, 이는 버그 유형과 컨텍스트 크기에 따라 세분화됩니다.[1][5][8]

GLM-5.2 및 Mythos를 활용한 버그 탐지 에이전트의 시스템 아키텍처

공정한 비교를 위해서는 공유된 아키텍처가 필요합니다. 두 모델 모두 동일한 도구를 사용하는 코드 인식(code-aware) 에이전트로 실행되어야 하며, 한쪽은 단순 채팅으로, 다른 한쪽은 풍부한 오케스트레이터(orchestrator)로 실행되어서는 안 됩니다.[1][5]

공유 베이스라인 에이전트 (Shared baseline agent)

각 에이전트는 동일한 도구를 부여받습니다:

파일 검색 API (glob, ripgrep 스타일).
벡터 DB를 통한 코드 검색 (Code retrieval).
테스트 러너 (Test runner) (예: [pytest](https://en.wikipedia.org/wiki/Pytest), mvn test).
패치 적용 도구 (Patch application tool) (unified diff 적용).

우리는 전체 모노레포(monorepos)를 컨텍스트에 로드하는 것을 피합니다 (비용이 너무 많이 들고 취약하기 때문입니다).[5] 대신, 검색(retrieval)에 의존합니다.

def debug_issue(model, issue):
    plan = model.plan(issue.description, tools=TOOLS)
    state = {}
...

이 오케스트레이션은 모델에 구애받지 않습니다(model-agnostic). GLM-5.2와 Mythos는 동일한 루프를 공유합니다.

코드 인식 RAG 레이어

우리는 추론의 근거를 마련하기 위해 코드를 벡터 DB에 인덱싱합니다.[6] RAG는 답변이 검색된 문서에 고정될 때 환각 (hallucinations)을 40~60%까지 줄이는 경우가 많습니다.[6]

인덱싱 전략:

임의의 윈도우(window)가 아닌, 함수/메서드 (function/method) 또는 클래스 (class) 단위로 청킹 (Chunking).
메타데이터 첨부: 파일 경로, 언어, 테스트 커버리지 힌트.
하이브리드 검색 (hybrid search) (BM25 + 임베딩 (embeddings)) 및 리랭킹 (reranking) 사용. [6][9]

이는 단순한 청킹 (naïve chunking)이 검색 및 다운스트림 추론 (downstream reasoning)을 저해한다는 RAG 베스트 프랙티스를 따르는 것입니다. [6][9]

디버깅을 위한 쿼리 강화 (Query enhancement)

디버깅을 위해 검색 프롬프트를 다음과 같이 조정합니다:

서브 쿼리 (Sub-queries):
- "실패하는 체크아웃 테스트 수정"을 payment, cart, discount를 위한 별도의 쿼리로 분할.
스텝백 프롬프트 (Stepback prompts):
- "불안정한(flaky) 테스트 X"에서 "주문 상태에 대해 유지되어야 하는 전역 불변량 (global invariants)은 무엇인가?"로 확장. [9]

이러한 기술들은 RAG 파이프라인에서 재현율 (recall)과 답변 품질을 향상시키는 것으로 흔히 보고됩니다. [9]

장기 실행 에이전트 워크플로우 (Long-running agentic workflows)

Mythos 스타일의 시스템은 다음을 허용해야 합니다:

장기 실행 세션 (Claude Code의 30분 이상 실행되는 에이전트와 유사).
서로 다른 워크트리 (worktrees) 또는 모듈을 병렬로 탐색하는 서브 에이전트 (sub-agents). [1]

이는 다음 상황에서 중요합니다:

서비스 간 버그 (Cross-service bugs).
리팩터링 (Refactors) 및 테스트 생성.

⚡ GLM-5.2도 여전히 다단계 루프를 실행할 수 있지만, 관찰된 차이가 에이전트 설계가 아닌 모델의 능력에서 기인하도록 오케스트레이션 (orchestration)을 동일하게 유지합니다.

배포 시에는 거버넌스 (governance) 및 데이터 보호 규정도 준수해야 합니다:

민감한 저장소의 경우 온프레미스 (On-prem) 또는 VPC 사용.
명확한 로깅 (logging) 및 보관 경계 설정.
컴플라이언스 (compliance) 요구 사항에 부합하는 제공업체 선택. [4][7]

소결론: 이 아키텍처는 에이전트 + RAG + 도구 (tools) 스택의 공유 구조입니다. GLM-5.2와 Mythos 모두 동일한 능력을 갖추므로, 차이점을 모델의 특성으로 귀속시킬 수 있습니다. [5][6][9]

데이터셋, 태스크 및 툴링: 현실적인 버그 탐지 벤치마크 구축

벤치마크는 장난감 수준의 저장소 (toy repos)가 아닌 실제 프로덕션 코드와 유사해야 합니다.

저장소 및 이슈 (Repositories and issues)

다음 조건을 갖춘 오픈 소스 프로젝트를 통해 데이터셋을 구축합니다:

복잡한 의존성 그래프 (dependency graphs) 및 모듈.
라벨링된 버그가 포함된 공개 이슈 트래커.
PR을 통해 병합된 정답 패치 (ground-truth patches).
수정 전에는 실패하고 수정 후에는 통과하는 테스트.

이는 실제 GitHub 이슈와 패치를 사용하는 SWE-bench의 방식과 유사합니다.[1] 또한 현실적인 엔드 투 엔드 (end-to-end) 흐름에서 시작하라는 프로덕션 평가 권장 사항과도 일치합니다.[8]

작업 템플릿 (Task template)

각 작업은 다음을 포함합니다:

컨텍스트 (Context): 저장소 스냅샷 (repo snapshot), 실패한 테스트 로그 또는 스택 트레이스 (stack trace).
도구 (Tools): 검색, 검색 증강 (retrieval) 및 테스트 실행에 대한 접근 권한.
목표 (Goal):
- 패치 (diff) 제출.
- 버그와 수정 사항에 대한 짧은 설명 제공.

이는 개발자가 어시스턴트와 협업하는 방식, 즉 “테스트가 실패하고 있습니다. 버그를 찾아서 수정하고 이유를 설명해 주세요.”라는 방식과 일치합니다.[2]

하네스 (harness)는 다음을 자동으로 기록합니다:

프롬프트 (prompts) 및 도구 호출 (tool calls).
검색된 청크 (retrieved chunks).
모델 출력 (패치, 설명).
테스트 결과 및 소요 시간.

이는 요청당 지연 시간 (latency), 비용 및 정확도를 기록하라는 LLM Ops 가이드라인과 일치합니다.[8]

검색 인덱스 구축 (Building the retrieval index)

우리는 RAG 지향적 청킹 (RAG-oriented chunking)을 적용합니다:

코드에 대한 함수 수준 (Function-level) / 클래스 수준 (class-level) 청크.
테스트에 대한 테스트 케이스 수준 (Test-case-level) 청크.
대규모 모듈에서의 선택적인 콜 그래프 인식 (call-graph–aware) 그룹화.

RAG 관련 연구들은 부실한 청킹과 인덱싱이 잘못된 검색과 환각 (hallucinations)을 유발한다고 일관되게 보고하고 있습니다.[6][9]

보안 중심 시나리오 (Security-focused scenarios)

AI가 생성한 코드에 대한 보안 분석에서 다음과 같은 문제들이 반복적으로 발견됩니다:[2]

취약한 검증 및 살균 (sanitization).
안전하지 않은 암호화 및 무작위성.
인젝션 (injection)에 취약한 쿼리.

우리는 다음을 포함합니다:

침투 테스트 (Pentest) 스타일의 이슈 (예: ORM 오용을 통한 SQL 인젝션).
깨진 접근 제어 (broken access control) 및 권한 상승 (privilege escalation).
잘못 설정된 TLS, 쿠키 또는 세션 관리.

이러한 작업들은 GLM-5.2 또는 Mythos가 기능적으로는 올바르지만 보안 측면에서는 퇴보하는 패치를 생성하는 경우를 드러냅니다.[2]

⚠️ 벤치마크 하네스, 큐레이션 스크립트 및 점수 산정 코드는 조직이 모델, 온도 (temp), 또는 컨텍스트 크기(context size)의 변화에 따라 평가를 재실행할 수 있도록 공개되고 버전 관리되어야 합니다.[4][8]

소결론 (Mini-conclusion): 현실적인 벤치마크는 SWE-bench 스타일의 리포지토리(repo) 작업과 RAG 기반의 툴링(tooling), 그리고 명시적인 보안 시나리오를 자동화되고 재현 가능한 하네스(harness) 내에서 결합해야 합니다.[1][2][8]

GLM-5.2 vs Mythos를 위한 지표, 벤치마크 및 비용 분석

데이터셋이 준비됨에 따라, 우리는 결과(outcomes)와 프로세스 품질(process quality)을 모두 측정합니다.

결과 지표 (Outcome metrics)

태스크별로 다음 사항을 추적합니다:

해결됨 (Resolved) / 부분적으로 해결됨 (partially resolved) / 해결되지 않음 (unresolved).
패치 적용 후 테스트 통과율 (Post-patch test-pass rate).
회귀(Regression) 횟수 및 심각도 (핵심 테스트 vs. 엣지 테스트).[1][8]

다음 단위로 집계치를 계산합니다:

리포지토리(repository)별.
버그 유형별 (로직, 통합, 보안 등).

이는 SWE-bench 및 SWE-bench Pro의 엄격함을 따릅니다.[1]

프로세스 및 성능 지표 (Process and performance metrics)

개발자 경험(DevEx) 및 사이트 신뢰성 공학(SRE) 관점에서 다음 사항도 추적합니다:

디버깅 세션당 중앙값(Median) 및 p95 지연 시간 (latency).
에이전트의 과도한 동작(agentic thrashing)을 나타내는 대리 지표로서의 도구 호출(tool invocations) 횟수.
소비된 컨텍스트 토큰 (Context tokens consumed) (메모리 및 비용 압박).[5][8]

트랜스포머(Transformer)의 컨텍스트 창(context window)은 유한하며 비용이 많이 듭니다. 큰 컨텍스트는 특히 높은 동시성(concurrency) 환경에서 추론(inference) 속도를 늦춥니다.[5]

이러한 지표들은 다음과 같은 서비스 수준 목표(SLO)를 지원합니다:

"이슈의 90%가 3분 이내에 후보 패치(candidate patch)를 받음."

Insights