Midnight AI Groove 26-06-18

등장인물

DJ 미오: 밝고 정리를 잘함. 리스너의 관점에서 쉽게 풀어서 설명하는 역할. -
DJ 렌: 기술 중심. 배경이나 구조를 보충하는 역할.

DJ 미오:

안녕하세요, 미래와 현실 사이를 그루브하는 라디오 교육 프로그램, **「Midnight AI Groove」**에 오신 것을 환영합니다. 내비게이터는 저, DJ 미오입니다.

DJ 렌:

그리고 파트너인 저, DJ 렌입니다. 오늘 밤에도 AI 업계의 공기를, 뉴스의 표면뿐만 아니라 그 이면의 흐름까지 따라가 보겠습니다.

DJ 미오:

오늘의 테마는 어떤 의미에서 역설적입니다. 타이틀은――「not much happened today」.

"오늘은 별로 아무 일도 일어나지 않았다"라고 말하면서도, 실제로 내용을 읽어보면 전혀 그렇지 않거든요.

DJ 렌:

맞아요. 오히려 화려한 초대형 발표가 적은 날이야말로 업계의 "중심 이동"이 잘 보이는 법이죠.

이번 전체상을 먼저 말씀드리면, 주인공은 크게 4가지입니다.

GLM-5.2를 중심으로 한 오픈 모델(Open Model)의 전진
모델 단체에서 하네스(Harness)・메모리・SCM을 포함한 에이전트(Agent) 운용으로의 이행
장기・현실 태스크에 맞춘 평가 벤치마크(Benchmark)의 중요화
의료, 얼라인먼트(Alignment), 그리고 의심스러운 의료 하드웨어 화제까지 포함하는 "신뢰성" 문제

DJ 미오:

네, 오늘은 이 4개의 기둥을 축으로 Twitter recap, Reddit recap, 그리고 전체 트렌드까지 꼼꼼하게 따라가 보겠습니다.

그럼 시작하죠. Midnight AI Groove, 오늘 밤의 첫 번째 곡이 아닌 첫 번째 토픽은――**GLM-5.2의 브레이크아웃(Breakout)**입니다.

DJ 미오:

이번에 가장 큰 화제를 모은 것은 역시 Zhipu의 GLM-5.2죠.

DJ 렌:

그렇습니다. 이번 요약에서는 **"일상 이용의 감각으로서, 처음으로 '프론티어(Frontier) 인접'이라 느껴지는 오픈 웨이트(Open-weight) 모델"**로 받아들여졌다는 점이 중요합니다.

단순히 "벤치마크에서 강하다"가 아니라, 여러 실무자가 독립적으로 그렇게 느꼈다는 점이 큽니다.

DJ 미오:

게다가 반응이 상당히 강렬했어요.

예를 들어, 어떤 실무자는 **"자신의 사용 방식으로는 Opus 4.8이나 GPT-5.5와 최소한 동등하다"**라고까지 말하고 있습니다. 다만 큰 약점으로 vision 미지원은 지적했었죠.

DJ 렌:

다른 사람은 **"처음으로 daily driver의 기준을 넘어선 오픈 모델"**이라고 평가하고 있고, Artificial Analysis의 평가에서도 새로운 agentic knowledge-work 벤치마크에서 GPT-5.5와 Opus 4.8 사이에 위치했습니다.

즉, "애호가들을 위한 재미있는 오픈 모델"이 아니라, 실무 투입 후보로서 논의되고 있는 것입니다.

DJ 미오:

그럼 무엇이 그렇게 효과적인 걸까요? 여기서 기술적인 이야기로 들어가 보겠습니다.

이번 요약에서 인상적이었던 것이 아키텍처(Architecture)상의 변화였죠.

DJ 렌:

네. GLM 계열이나 DeepSeek 계열에서 보이는 MLA나 DSA에 더해, GLM-5.2에서는 IndexShare가 추가되었다고 설명되어 있습니다.

이것이 포인트인데, 희소 주의 집중 메커니즘(Sparse Attention Mechanism)에서 선택된 top-k 인덱스를 여러 레이어(Layer) 군에서 재사용함으로써, 100만 토큰급 추론(Inference) 비용을 낮춥니다.

DJ 미오:

"긴 문장에 강하다"라고 하면 단순히 컨텍스트 길이(Context Length)가 길다는 의미로 들릴 때가 있지만, 여기서는 1M token inference를 현실적으로 만들기 위한 설계에 대한 이야기군요.

DJ 렌:

맞아요. 롱 컨텍스트(Long Context)는 단순히 받아들이는 것만으로는 의미가 없습니다.

연산량, 레이턴시(Latency), 메모리, KV 캐시(KV Cache), 실용적인 처리량(Throughput)――전부 문제가 되죠. IndexShare는 그 부담을 경감하기 위한 한 수로 읽히고 있습니다.

DJ 미오:

성능뿐만 아니라 제공 방식도 상당히 적극적이었습니다.

DJ 렌:

꽤 공격적이었죠.

예를 들어,

Hugging Face Inference Providers에서 기간 한정 무료 제공
llama.cpp / Unsloth을 통한 로컬 GGUF 대응

여기에 더해 내부 앱 개발 태스크에서도,
GLM-5.1의 21/70에서 GLM-5.2의 48/70으로 개선

이런 부분들이 갖춰져 있어, "보여주고・체험하게 하고・돌려보게 하는" 과정이 일시에 실행되었습니다.

DJ 미오:

즉, 모델이 강하기만 한 것이 아니라, 바로 만져보고・바로 비교하고・바로 양자화(Quantization)하고・바로 실운용에 투입할 수 있다는 것입니다.

이러한 속도감 자체가 오픈 모델(Open Model) 시대다운 모습이죠.

DJ 미오:

그리고 이번에는 GLM-5.2가 주를 이루었지만, 그 외에도 중요한 오픈 모델의 움직임이 있었습니다.

DJ 렌:

먼저 poolsideai의 Laguna M.1입니다.

Apache 2.0 라이선스로 가중치(Weights)를 공개했으며, 256K 컨텍스트(Context), 게다가 구조적으로는 70층의 희소 MoE (Sparse MoE), 총 225B · 액티브 23B, 256 experts, top-k=16 사양을 갖추고 있습니다.

목표는 장시간・장단계의 agentic coding으로, 추론(Inference)과 도구 사용(Tool use)을 교대로 수행하는 워크로드에 최적화되어 있습니다.

DJ 미오:

게다가 Apple Silicon에 관한 이야기도 있었죠.

3-bit MLX 빌드로, M3 Max 128GB 머신에서 초당 약 26토큰, 피크 메모리 약 100GB를 기록했습니다.

DJ 렌:

이것 또한 상징적입니다.

거대 모델을 단순히 “공개하는” 것에 그치지 않고, Apple Silicon에서 어떻게 구동하는지까지 세트로 보여주고 있습니다.

로컬 실행의 현실성은 아직 제한적일지라도, **재현 가능성(Reproducibility)과 사용 가능성(Usability)**이 확장되고 있습니다.

DJ 미오:

반면, 더 작은 쪽에서는 Cohere의 North Mini Code가 있었습니다.

이것은 4-bit 양자화(Quantization), Ollama 대응, OpenRouter를 통한 무료 액세스를 지원합니다.

즉, 거대하고 최첨단에 가까운 오픈 모델과, 더 다루기 쉬운 코딩 모델이라는 두 바퀴가 함께 굴러가고 있는 셈이네요.

DJ 렌:

맞습니다. 그리고 Ollama가 로컬 오픈 배포(Local Open Deployment)를 뒷받침하고 있다는 점도 중요합니다.

단순히 “열려 있는” 것뿐만 아니라, 내 손안에서 운용할 수 있는가가 개방성을 체감하는 기준이 되기 때문입니다.

DJ 미오:

다음 큰 테마가 오늘 중 가장 교육적일지도 모르겠습니다.

그것은 바로, **「모델 단독으로 보는 시대에서, 운용 스택 전체로 보는 시대로」**라는 흐름입니다.

DJ 렌:

이번 요약에서는 그것을 매우 명쾌하게 표현하고 있는데, 무게 중심이

“model”에서 “model + harness + memory + SCM”으로 이동하고 있다

라고 말합니다.

DJ 미오:

여기서 나온 것이, 기존의 git/GitHub 워크플로우가 다수의 병렬 코드 에이전트 시대에는 파탄 나기 쉽다는 논의였습니다.

DJ 렌:

그렇죠. 문제점으로 언급된 것은 다음과 같습니다.

stale worktrees: 작업 트리(Worktree)가 오래됨 -
diverged review state: 리뷰 상태가 갈라져 동기화되지 않음 -
environment setup overhead: 환경 구축 비용이 높음 -
poor state synchronization: 상태 동기화가 좋지 않음 -

요컨대, 인간 몇 명이 운영하는 것을 전제로 한 SCM(Software Configuration Management)이나 리뷰 운용을, 수십~수백 개의 병렬 코드 에이전트에 그대로 적용하면 한계가 온다는 뜻입니다.

DJ 미오:

그 대안으로 제안된 것이,

virtual shallow checkouts, jj, Sapling 스타일의 commit stack, cloud sync, file-level ACL, 그리고 모델부터 SCM・원격 런타임(Remote Runtime)까지의 수직 통합입니다.

상당히 “새로운 OS를 만드는 것”에 가까운 발상이네요.

DJ 렌:

게다가 그것이 Noumena Code / ncode로서 제품화되고 있으며, 향후 추론 엔진이나 모델에 대한 무료 액세스도 계획되어 있습니다.

여기서 중요한 점은, AI 코딩은 더 이상 채팅 UI에 코드를 붙여넣는 이야기가 아니라는 것입니다.

작업 복사본(Working copy), 차이점(Diff), 리뷰, 권한, 실행 환경, 원격 런타임의 전체 설계가 승부처가 된 것입니다.

DJ 미오:

이 흐름과 연결되는 또 하나의 중요한 주장이 있었습니다.

그것은, 벤치마크는 LLM 단독이 아니라, 하네스(Harness)와의 조합으로 측정해야 한다는 이야기입니다.

DJ 렌:

네. OpenHands의 비교에서는 모델의 종류나 비용 프로필에 따라 승자가 달라진다고 했습니다.

즉, 모델 A가 모델 B보다 강하다가 아니라, 하네스 H와 결합한 A와 하네스 J와 결합한 B는 결과가 달라진다는 것이죠.

DJ 미오:

이것은 교육적으로 매우 중요하며, 리스너 여러분도 "어떤 모델이 최강인가"라는 관점으로만 보면 잘못 판단하게 됩니다.

실제로는 **도구 연결 (tool connection), 기억 (memory), 상태 관리 (state management), 재시도 (retry), 관측 (observation), 리뷰 동선 (review flow)**까지 포함한 시스템 설계에 따라 성능이 달라지거든요.

DJ 렌：

맞아요. 에이전트 시대의 능력은 순수한 다음 토큰 예측 (next-token prediction)의 강함만으로 결정되지 않습니다.

어떤 상태를 보여줄 것인가, 어떤 행동 공간 (action space)을 갖게 할 것인가, 얼마나 재시도할 수 있는가, 중간 결과를 어떻게 평가할 것인가―― 그 부분이 핵심이 되고 있습니다.

DJ 미오：

그런 맥락에서 이번에 상당히 흥미로웠던 것이 자동화 프리미티브 (automation primitives) 이야기입니다.

여기서는 OpenAI의 Codex Record & Replay와 Cursor의 /automate가 눈에 띄었습니다.

DJ 렌：

먼저 Codex Record & Replay.

이것은 사용자가 한 번 워크플로 (workflow)를 시연하면, 그것을 **inspectable skill (검사 가능한 기술)**로서 재사용할 수 있다는 것입니다.

즉, 자연어로 전부 지시하는 대신, "이렇게 하는 거야"라고 보여줌으로써 기술화하는 것이죠.

DJ 미오：

굉장히 인간적인 가르침 방식이네요.

"매주 이 보고서를 이렇게 만든다", "이 형식으로 PR을 올린다", "이 에러가 나면 여기를 확인한다"와 같은 흐름을 데모 (demonstration)로부터 자동화 자산으로 바꾸는 것 말이죠.

DJ 렌：

그리고 Cursor의 /automate는 자연어 태스크로부터 **트리거 (trigger)・지시 (instruction)・도구 구성 (tool configuration)**을 셋업합니다.

여기에 Slack 이모지 트리거, GitHub 트리거, 클라우드 에이전트용 computer use까지 포함되어 있습니다.

DJ 미오：

즉 자동화가 "if-this-then-that" 같은 고정된 규칙에서, 자연어로 기술하고, 시연으로 학습하며, 도구 구성까지 동반하는 에이전트 워크플로로 진화하고 있다는 뜻이군요.

DJ 미오：

나아가, Claude Code의 Artifacts도 소개되었습니다.

DJ 렌：

이것도 중요합니다.

에이전트의 작업 도중이나 성과물을 **공유 가능한 라이브 페이지 (live page)**로 바꿀 수 있습니다.

내부적으로는 아키텍처 변경이나 프로토타입 공유의 워크플로를 이미 바꾸고 있다는 코멘트도 있었습니다.

DJ 미오：

AI 에이전트는 작동 중인 상태가 보이지 않으면 불안하기 마련인데, Artifacts는 그 불투명함을 줄여줍니다.

게다가 단순한 로그가 아니라, 사람이 보고 판단할 수 있는 중간 성과물로서 공유할 수 있다는 점이 포인트네요.

DJ 렌：

맞아요.

에이전트 시대의 열쇠는 자율성의 강화뿐만 아니라, 가시성 (visibility)과 리뷰 가능성 (reviewability)의 강화이기도 합니다.

DJ 미오：

그리고 이번에 상당히 중요했던 점은, 보안과 리뷰가 일급(first-class) 에이전트 업무가 되었다는 점입니다.

DJ 렌：

여기서는 Cognition이 Devin Review에 자동 보안 리뷰를 추가한 것, 나아가 Devin for Security가 기존 AppSec에 있었던

**"finding(발견)과 fixing(수정)의 단절"**을 메우려 하고 있다고 설명되었습니다.

DJ 미오：

즉, 취약성을 "찾는" 것에서 끝내지 않고, 저위험도 소견을 연쇄시켜 실제로 중대한 익스플로잇 (exploit)이 되는지 확인하는 것입니다.

여기에 **agentic reasoning (에이전트적 추론)과 harnessing (하네싱)**이 효과를 발휘하죠.

DJ 렌：

이것은 정말 중요합니다.

기존의 정적 분석이나 개별 지적은 노이즈가 많습니다. 하지만 실제 공격은 여러 작은 문제의 조합으로 성립하는 경우가 많습니다.

그 부분을 에이전트가 추적하여 "정말로 위험한 형태"까지 도달할 수 있는가가 차세대 AppSec의 차이를 만드는 것입니다.

DJ 미오：

그리고 툴 계열에서 가장 인게이지먼트(engagement)가 높았던 것은 OpenAI Devs의 Codex Record & Replay였습니다.

이것은 상징적이었죠.

DJ 렌：

네.

지금 개발자들이 강력하게 요구하고 있는 것은 단순히 "똑똑한 모델"이 아니라, **"가르치면 업무를 익히는 메커니즘"**이라는 점을 잘 보여줍니다.

DJ 미오：

여기서부터는 평가와 벤치마크 이야기입니다.

이번 내용 중에서도 상당히 본격적이었던 것이 Artificial Analysis의 AA-Briefcase였습니다.

DJ 렌：

이것은 상당히 현실에 가까운 **에이전트 지식 노동 벤치마크 (agentic knowledge-work benchmark)**로,

수 주간에 걸친 프로젝트, 수천 개의 파편화된 입력값, Slack·이메일·문서 코퍼스 (corpus), 그리고 결과물로서 재무 모델이나 이사회 보고용 자료와 같은 것들을 다룹니다.

DJ 미오:

이제는 단순히 "질문에 답할 수 있는가"가 아니라, 회사원이나 지식 노동자의 복잡한 현실 업무를 모사한 평가인 셈이죠.

DJ 렌:

그 결과는 다음과 같습니다.

Claude Fable 5가 1587 Elo로 1위 -
Opus 4.8이 1356 -
GLM-5.2가 1266으로, 언급된 모델 중 가장 강력한 비 Anthropic 계열의 "open-ish" 모델

이라는 순위입니다.

DJ 미오:

하지만 이 벤치마크에서 정말 흥미로운 점은 순위만이 아닙니다.

비용도 함께 제시하고 있다는 점이죠.

DJ 렌:

맞습니다.

평균 비용은,

Fable 5: $31/task
Opus 4.8: $10.40/task
GPT-5.5 xhigh: $3.68/task
GLM-5.2: $2.40/task

능력뿐만 아니라 경제성을 함께 고려하지 않으면 실무적인 판단을 내릴 수 없다는 메시지입니다.

DJ 미오:

게다가 전체적인 교훈이 엄격합니다.

톱 모델조차 모든 루브릭 (rubric) 기준을 충족한 것은 태스크의 3%뿐이었습니다.

즉, 장기적이고 현실적인 지적 업무는 아직 전혀 쉽지 않다는 뜻입니다.

DJ 렌:

그렇습니다.

화려한 스코어 상승의 이면에는 현실 세계의 복잡함이 여전히 크게 존재합니다.

이 "아직 어렵다"라는 사실을 놓치지 않는 것이 중요합니다.

DJ 미오:

AA-Briefcase 외에도 장기 태스크에 가까운 평가들이 나와 있었습니다.

DJ 렌:

네.

Terminal-Bench Challenges는 장시간·고토큰 소비의 단발성 태스크를 대상으로 하고 있고,

SkillWeaver는 에이전트의 라우팅 (routing)을 단일 도구 선택이 아닌, 스킬 검색 + DAG 계획으로 다룹니다.

나아가 Agent Arena는 인간과 AI의 협업 가치를 조종 가능성 (steerability), bash 복구 (bash recovery), 도구 환각 (tool hallucination) 등의 시그널로 인과적으로 측정하려고 하고 있습니다.

DJ 미오:

즉 평가 축이 "정답률" 같은 단순한 것에서,

길이, 분해, 회복성, 유도 용이성, 도구 환각, 인간과의 상호작용으로 다차원화되고 있는 것이군요.

DJ 렌:

한편으로는, 현재의 분석 에이전트 (analytics-agent) 벤치마크는 잘못된 것을 측정하는 경우가 많다는 메타 비판도 있었습니다.

평가 방법 그 자체가 지금 커다란 쟁점입니다.

DJ 미오:

그럼 다음으로, 이른바 "지루하지만 효과적인" 시스템 측면으로 넘어가 보죠.

여기서는 추론, 검색, 전달 효율의 개선이 정리되어 있었습니다.

DJ 렌:

먼저 Liquid AI가 LFM2.5-Embedding-350M과 LFM2.5-ColBERT-350M을 공개했습니다.

11개 언어를 커버하는 다국어 검색 모델로, 기업용 스택 상에서 **1.5ms의 엔드투엔드 (end-to-end) 검색 레이턴시 (latency)**를 주장하고 있습니다.

DJ 미오:

검색 기반의 개선은 에이전트의 기억이나 RAG 전체의 성능에도 직접적으로 연결되겠네요.

DJ 렌:

그렇습니다.

다음으로 CoreWeave는 Kimi K2.7 Code 서빙에서 289 tok/s를 주장했습니다.

여기서는 모델 그 자체보다 프로바이더 측의 가격 대비 성능비가 차별화 요소로 강조되고 있습니다.

DJ 미오:

"어떤 모델인가"뿐만 아니라, 누가 어떻게 배포하는가도 경쟁력이 된다는 것이군요.

DJ 렌:

나아가 vLLM + Ray Serve에서는,

prefill-heavy workloads에서 최대 4.4배,

decode-heavy workloads에서 최대 24배의 처리량 (throughput) 개선을 보여주었습니다.

요인으로는 direct streaming, Ray V2 executor backend, HAProxy 기반의 ingress routing이 꼽혔습니다.

DJ 미오:

이 부분은 인프라에 가깝지만, 에이전트의 장기 태스크(Long-running tasks)나 대량 병렬 처리에서는 상당히 효과적일 것 같습니다.

DJ 미오:

검색 및 문서 처리 비용 개선도 있었습니다.

DJ 렌:

네. turbopuffer는 베이스 플랜을 월 64달러에서 16달러로 인하했습니다.

또한 i8 vectors를 통해 1차원당 바이트 수를 4분의 1로 줄였으며, 양자화(Quantization) 지원 임베딩과 결합하여 저장 및 쿼리 비용을 최대 75%까지 절감할 수 있다고 밝혔습니다.

DJ 미오:

이것은 RAG 계열 프로덕트에게 상당히 실무적이네요. “사용하고 싶지만 스토리지 비용이 부담스럽다”는 문제에 대한 직접적인 해답이 되고 있습니다.

DJ 렌:

문서 측면에서는, LlamaIndex와 Jerry Liu가 LiteParse v2.1을 출시했습니다. 이는 PDF/문서 → Markdown 변환에 있어 **가장 빠른 오픈 모델 불필요 파이프라인(Open-model-free pipeline)**을 표방하며, 여러 OSS 파서(Parser) 베이스라인을 3개의 벤치마크에서 앞질렀다고 주장하고 있습니다.

DJ 미오:

RAG의 품질은 검색 모델뿐만 아니라, 애초에 문서를 어떻게 파괴하지 않고 추출하느냐에 크게 의존하기 때문에 이 부분도 중요하겠네요.

DJ 미오:

이어서 의료, 건강, 얼라인먼트 (Alignment) 이야기입니다. 여기서는 OpenAI의 존재감이 강했습니다.

DJ 렌:

먼저, Boston Children’s / Harvard와의 NEJM AI 연구입니다. o3 Deep Research가 지금까지 해결되지 않았던 소아 희귀 질환 사례를 임상의가 재검토하는 데 도움을 주었다고 하며, 요약하자면 미해결 376개 사례 중 18건의 새로운 진단 발견을 도왔다는 내용으로 정리되었습니다.

DJ 미오:

의료 AI 이야기는 과장이 많기도 하지만, 여기서는 적어도 **“임상의가 재검토하는 데 도움을 준다”**라는 겸손하고 현실적인 표현을 사용했다는 점이 인상적입니다.

DJ 렌:

그리고 또 하나, GPT-5.5 Instant가 건강 관련 질문에서 프론티어급 Thinking 모델과 어깨를 나란히 했다는 발표입니다. 이는 60개국, 49개 언어, 26개 전문 영역, 수백 명의 의사 피드백을 바탕으로 하고 있다고 합니다.

DJ 미오:

즉, 단순한 일반 지식 QA가 아니라, **의사 주도의 평가 루프 (Evaluation loop)**를 가지고 있다는 점이 강조되고 있는 것이군요.

DJ 미오:

그리고 이번에 이론 면에서도 흥미로웠던 것이 OpenAI의 얼라인먼트 (Alignment) 연구입니다.

DJ 렌:

네. 테마는 모델을 “넓고, 지속적이며, 인간에게 유익하도록” 훈련하는 것입니다. 구체적으로는 건강 영역의 대화에 대한 RL (강화학습)을 통해, 진실성 (Truthfulness), 겸손함 (Humility), 인간 복지에 대한 배려와 같은 특성을 강화했습니다.

DJ 미오:

결과적으로 53개의 내부·외부 얼라인먼트/유익성 평가 중 44개에서 개선되었습니다. 게다가 흥미로운 점은, 건강 영역만의 유익 특성 훈련만으로도 비건강 영역의 19개 평가 중 17개에서 개선이 나타났다는 점이죠.

DJ 렌:

맞아요. 예를 들어 **기만 (Deception)**이나 **코딩 보상 해킹 (Coding reward hacking)**처럼 의료와 직접적인 관련이 없어 보이는 평가에서도 개선이 관찰되었습니다. 이것이 사실이라면 단순한 “거부를 늘리는 안전성”이 아니라, **일반화된 유익한 행동 (Beneficial behavior)**을 조작 가능한 대상으로 다룰 수 있는 가능성을 보여줍니다.

DJ 미오:

아직 초기 단계이긴 하지만, 좁은 거부 규칙형 안전성에서 보다 인격 특성에 가까운 유익성 튜닝으로 나아가려 하고 있습니다. 이는 상당히 큰 방향 전환으로 보입니다.

DJ 미오:

여기서 이날의 톱 트윗급 화제도 정리해 두죠.

DJ 렌:

먼저, 나렌드라 모디 총리가 Mistral의 Arthur Mensch와 회담한 건입니다. 이것은 기술이라기보다 지정학 및 국가 수준의 AI 외교 시그널로서 중요합니다.

DJ 미오:

다음은 역시 Codex Record & Replay입니다. 개발자 도구로서 이날 최대 규모의 반응을 끌어내며, 데모 기반 자동화에 대한 수요를 입증했습니다.

DJ 렌:

그리고 Claude Deps…가 아니라 Claude 측의 Enterprise-Managed Auth for MCP입니다.

IdP를 통해 MCP 커넥터의 중앙 인증을 관리할 수 있다는 이야기로, 엔터프라이즈에서의 에이전트 도입을 위한 기반 정비로서 중요합니다.

DJ 미오:

여기에 더해 GPT-5.5 Instant의 성능 개선.

주류 프로덕트 모델이 특정 도메인의 유용성을 향해 조정되고 있음을 보여주는 강력한 시그널입니다.

DJ 렌:

그리고 GLM-5.2에 대한 찬사와 Ollama를 통한 용량 확장 이야기.

이 두 가지를 합치면, 단순히 “나왔다”는 것뿐만 아니라 **“즉시 테스트되고, 찬사를 받으며, 운영에 투입되었다”**는 그날의 오픈 모델(Open Model) 분위기가 잘 나타나 있습니다.

DJ 미오:

여기서부터는 Reddit 쪽입니다. 우선 당연히 **GLM-5.2의 로컬 액세스(Local Access)와 양자화 (Quantization)**입니다.

DJ 렌:

Reddit에서는 상당히 뜨거운 반응인데요,

GLM-5.2는 **총 753B 파라미터의 MoE (Mixture of Experts), 1 토큰당 약 40B 액티브(Active)**라는 거대 모델입니다.

그럼에도 MIT 라이선스, 28.5T 토큰 사전 학습, 1M 컨텍스트, 131k 출력, 프런티어급 코딩 에이전트 동작 같은 점들이 높게 평가받고 있었습니다.

DJ 미오:

흥미로웠던 점은, 이를 단순히 “너무 거대하다”로 끝내지 않고, 고품질 합성 데이터 증류 (Distillation)의 원천으로서 8B/70B급 로컬 모델로 파급될 수도 있다고 보는 의견이 있었다는 것입니다.

DJ 렌:

맞습니다. 즉, 본체를 모두가 로컬에서 돌릴 필요는 없다는 것이죠.

상위 모델이 강해지면, 그 출력을 사용한 증류를 통해 실제로 사용할 수 있는 소형 모델의 질도 올라갑니다.

이것이 로컬 AI 지지층의 중요한 관점입니다.

DJ 미오:

그렇긴 하지만, 하드웨어 측면의 현실은 냉혹했군요.

DJ 렌:

매우 엄격합니다.

추정치로는 추론 메모리가 FP8에서 약 744~890GB,

동적 1-bit 양자화에서도 약 176~180GB,

여기에 KV 캐시(KV Cache)는 100k 토큰당 FP16/BF16에서 15~~20GB, 8-bit에서 7.5~~10GB, 4-bit에서 3.5~5GB 정도라는 견적이 소개되고 있었습니다.

게다가 그 표 자체도 AI가 생성한 것이라 개략적인 수치라는 주의 사항이 붙어 있었죠.

DJ 미오:

댓글창에서도,

“512GB Mac이라면 이론상 가능할지도”

“GB10 클러스터라면”

“128GB의 AMD AI Max를 여러 대라면”

같은 이야기들이 나오면서도, 결국은 “unobtanium(구하기 매우 어려운 물질)”에 가까운 하드웨어라는 인식이 강했습니다.

DJ 렌:

더불어 중요한 점은, 메모리에 올라가는 것과 실용적으로 사용할 수 있는 것은 별개라는 지적입니다.

50K를 넘는 컨텍스트가 되면, 특히 Mac Studio급에서는 PP/TG 성능이 저하되어 돌아가더라도 쓸모가 없다는 의견도 있었습니다.

DJ 미오:

이 “올라간다”와 “쓸 수 있다”의 구분은 중요하네요. 로컬 LLM 업계는 자칫 전자의 이야기만으로 분위기가 달아오르기 쉬우니까요.

DJ 미오:

또한 Reddit에서는 GLM-5.2 Air나 Flash 같은 소형 파생 버전에 대한 기대도 언급되었습니다.

DJ 렌:

네. “Claude Opus 4.6급을 800B 미만으로 달성했다면, 200B~300B의 Air나 40B 전후의 Flash가 나왔을 때 상당히 흥미로울 것”이라는 관점입니다.

그리고 이는 다음 세대인 Gemma 5나 Qwen 4에 대한 기대감으로도 이어지고 있습니다.

DJ 미오:

로컬 사용자들에게 현실을 다시 한번 일깨워준 것이 Unsloth의 GLM-5.2 GGUF였습니다.

DJ 렌:

그렇죠. 무려 최소인 2bit 버전조차 약 238GB입니다.

“2bit니까 가볍다” 수준이 아니라, 여전히 매우 무겁습니다.

댓글창에는 각종 양자화 형식――

UD-IQ1_S, UD-IQ1_M, UD-IQ2_XXS, UD-IQ2_M, UD-Q2_K_XL, UD-IQ3_XXS, UD-IQ3_S, UD-Q3_K_XL, UD-Q4_K_XL, Q8_0

의 torrent 미러 링크까지 올라와 있었습니다.

DJ 미오:

“230GB 분량의 RAM이 부족하다”는 탄식도 있었고,

“장래에 배포 제한이 걸릴지도 모르니 torrent로 확보해두고 싶다”는 목소리도 있었습니다.

오픈 웨이트(Open Weights) 시대의 저장과 유통의 정치성까지 엿보이네요.

DJ 렌:

게다가 단순히 “사이즈가 엄청나다”로 끝나지 않고,

2bit 양자화 (Quantization)를 통해 SWE-bench 성능이 얼마나 유지될 것인가라는 본질적인 질문도 나왔습니다.

실무적으로는 압축 후에 코딩 능력 (Coding Ability)이 어디까지 남느냐가 전부니까요.

DJ 미오:

GLM-5.2의 무료 추론 윈도우도 Reddit에서 화제였죠.

DJ 렌:

네.

Hugging Face Inference Providers에서 6시간 한정 무료로 제공되었습니다.

이용처로는 Zai, Together AI, Novita, Fireworks, DeepInfra 등이 나열되었습니다.

다만 댓글은 다소 냉소적이었는데,

"마약상(Drug dealer)의 수법 같다"라거나,

"서버 혼잡 때문에 최근 며칠 동안 거의 사용할 수 없다"와 같은 목소리도 있었습니다.

DJ 미오:

즉, 관심이 너무 뜨거워서 공급이 따라가지 못하는 상황이군요.

이것도 "성공의 부작용"이네요.

DJ 미오:

다음 Reddit 토픽은 거대 모델과는 반대 방향입니다.

**에지 로컬 추론 (Edge Local Inference)**의 흥미로운 진전입니다.

DJ 렌:

우선, Gemma 4 E2B를 브라우저 내에서 WebGPU 추론하여 M4 Max에서 255 tok/s를 기록했다는 데모입니다.

커스텀 WebGPU 커널이 사용되었고, 심지어 그것이 Fable 5에 의해 최적화되었다고 하는 점이 인상적입니다.

DJ 미오:

브라우저에서 255 tok/s라니, 상당히 임팩트가 크네요.

Midnight AI Groove 26-06-18

요약

핵심 포인트

댓글