Midnight AI Groove 26-05-28

DJ 미오:

안녕하세요, AI의 최전선을 비트에 실어 전달하는 「Midnight AI Groove」입니다. 내비게이터 DJ 미오입니다.

DJ 렌:

그리고 파트너 DJ 렌입니다. 오늘 밤의 테마는 상당히 거대합니다. Anthropic이 Series H로 650억 달러를 조달하여 포스트 머니(Post-money) 기업 가치 9,650억 달러를 기록했으며, 추가로 Claude Opus 4.8과 Dynamic Workflows까지 한꺼번에 발표했다는 초대형 뉴스입니다.

DJ 미오:

금액의 스케일감이 이미 차원이 다르네요. 게다가 Anthropic은 동시에 런레이트(Run-rate) 매출이 470억 달러를 돌파했다고도 밝혔습니다. 투자자로서는 Altimeter, Dragoneer, Greenoaks, Sequoia가 이름이 언급되었는데, Altimeter는 이번 라운드를 주도하며 자사 역사상 최대 규모의 투자라고 공언했습니다.

DJ 렌:

이 자금의 용도에 대해 Anthropic이 강조하고 있는 점은 연구 개발뿐만 아니라, Claude 수요에 대응하기 위한 캐파(Capacity) 확장입니다. 이 부분이 중요하죠.

지금의 최첨단 AI는 학습뿐만 아니라 추론 비용 (Inference Cost), 특히 장시간의 자율 실행이나 멀티 에이전트(Multi-agent) 운용이 굉장히 무겁습니다. 그래서 이번 조달은 '모델 연구비'라기보다, 에이전트 시대의 공급망 확보라는 의미가 강하다고 보는 사람들이 많았습니다.

DJ 미오:

반응도 깔끔하게 갈렸죠.

하나는 "이것은 Claude가 기업용 핵심 플랫폼이 되었다는 증거다"라는 강세의 관점.

또 하나는 "거의 조 단위 기업 같은 기업 가치로, 드디어 하이퍼스케일러급 자본 집약적 비즈니스가 되었다. 거품 같은 면도 있지 않을까?"라는 경계파.

여기에 추측 기반이긴 하지만, "이것은 추론용 계산 자원의 대규모 확보이기도 한 것 아닌가"라는 해석도 나왔습니다.

DJ 렌:

그 자본 이야기와 동시에 나온 것이 바로 Claude Opus 4.8입니다. Anthropic 자체의 정의에 따르면, 이것은 Opus 4.7의 업데이트이며 주요 개선점은 세 가지입니다.

판단력이 더욱 날카로워진 것,

자신의 진행 상황에 대해 더욱 정직해진 것,

그리고 더 오래 자율적으로 작업할 수 있게 된 것.

게다가 가격은 동결되었습니다.

DJ 미오:

이 부분, 상당히 Anthropic다운 마케팅 방식이네요. 보통이라면 벤치마크(Benchmark)를 전면에 내세울 법한데, 이번에는 오히려 행동 품질 (Behavioral Quality), 즉 "진행 상황을 대충 부풀리지 않는다", "모르는 것을 모른다고 말한다", "끝나지 않았는데 끝난 척하지 않는다"와 같은 에이전트로서의 신뢰성을 밀고 있습니다.

DJ 렌:

실제로 엔지니어 Alex Albert도 4.7에 대한 피드백을 받아 많은 수정을 가했으며, 뉘앙스 이해가 개선되고 대화가 자연스러워졌으며, 코딩이나 지식 노동에서도 강해졌다고 설명했습니다.

과거의 Claude는 출력 자체는 강력해도, 코드 리뷰에서 오판하거나, 자신만만하게 중간 과정을 보고하거나, 도중에 힘이 빠지는(Breathless) 등의 평판이 일부 있었습니다. 4.8에서 그 부분을 상당히 고치려 한다는 시각이 지배적입니다.

DJ 미오:

커뮤니티의 반응도 상징적이었죠.

"게으름 습관을 치료할 약을 찾았다"라거나,

"역대 가장 게으르지 않은 (not lazy) Claude"라거나,

"오랜만에 똑똑하다고 느껴지는 모델" 같은 반응들 말이죠.

즉 성능 향상이라기보다, 일하는 방식이 제대로 잡혀왔다는 평가입니다.

DJ 렌:

스펙 면을 살펴보면, 보고된 주요 수치는 다음과 같습니다.

컨텍스트 길이 (Context Length)는 100만 토큰.

가격은 입력 100만 토큰당 5달러, 출력 25달러.

캐시 쓰기(Cache Write)는 6.25달러/백만 토큰, TTL은 5분.

캐시 히트(Cache Hit)는 0.50달러/백만 토큰.

그리고 Fast mode 이용이 가능하며, 커뮤니티에서는 이전보다 약 2.5배 빠르고 비용 면에서도 개선되었다고 받아들이고 있습니다.

DJ 미오:

그리고 effort controls, 즉 추론의 강도를 조정하는 메커니즘도 웹이나 앱, Claude Code 계열의 인터페이스에 더 많이 등장했습니다.

다만 이 부분이 흥미로운데, effort 설정에 따라 품질과 비용이 상당히 달라진다는 보고가 있는 반면, Reddit에서는 "minimal과 max의 차이를 체감하기 어렵다"는 불만도 나오고 있습니다.

Dan Shipper는 코딩이라면 xhigh, 문장 작성이라면 high를 권장한다고 말했지만, Andon Labs는 반대로 max reasoning이 항상 최선은 아닐 수도 있다고 말하고 있다.

DJ 렌:

벤치마크 측면에서는 Anthropic 주변부나 제3자 평가로부터 상당히 강력한 수치가 나오고 있다.

예를 들어 SWE-Bench Pro 69.2%, 이것은 어떤 게시물에서 GPT-5.5보다 10포인트 높다고 소개되었다.

FrontierSWE에서 1위라는 견해도 확산되었고,

APEX-SWE에서는 Pass@1이 45.3%로, GPT-5.3 Codex의 41.5%를 약 4포인트 상회한다고 되었다.

DJ 미오:

게다가 Artificial Analysis의 수치에 따르면,

GDPval-AA가 1890 Elo로, Opus 4.7 대비 +137, GPT-5.5 xhigh 대비 +121이다.

이를 헤드 투 헤드 (Head-to-Head) 환산하면, GPT-5.5 xhigh에 대해 약 67%의 승률에 해당한다고 한다.

Intelligence Index는 61.4로, 4.7보다 +4.1, GPT-5.5 xhigh보다 +1.2이다.

한편 AA-Omniscience는 27.4로 2위, Gemini 3.1 Pro가 32.9로 그 위다.

정확도가 46.6%, 환각률 (Hallucination rate)이 **35.9%**라는 보고도 있었다.

DJ 렌:

세부적인 개선 영역도 보이고 있는데,

Terminal-Bench Hard에서 +6.8,

τ²-Bench Telecom에서 +5.9,

IFBench에서 +3.6이다.

하지만 **AA-LCR, GPQA, SciCode에서는 비교적 플랫 (Flat)**하다.

요컨대, 모든 축에서 압도한 것이 아니라 특히 장기 태스크나 에이전트적인 작업에서 성장이 눈에 띈다.

DJ 미오:

Cursor도 4.7보다 효율적이며, 어려운 태스크에 대한 끈기가 늘어났다고 언급했고, Anthropic 측도 Claude Code에서의 **긴 지평선의 작업 (Long-horizon tasks)**에 강하다는 점을 강조했다.

Dan Shipper나 rishdotblog처럼, 지식 노동이나 문장 작성에서의 점프가 크다고 느낀 사람도 있었다.

DJ 렌:

다만, 효율성에 관한 이야기는 조금 복잡하다. Artificial Analysis에 따르면, 4.8은 4.7보다 고성능이면서도,

1개 태스크당 턴(Turn) 수가 15% 적고,

출력 토큰도 35% 적다.

즉 4.7보다는 효율화되어 있다.

하지만 한편으로는, GPT-5.5와 비교하면 턴 수가 약 30% 많다.

그래서 "4.8은 좋아졌지만, 추론 효율 면에서 항상 최강은 아니다"라는 미묘한 위치에 있다.

DJ 미오:

그 때문에 커뮤니티에서는,

"아직 GPT-5.5에 토큰 면에서 밀리고 있다"라거나,

"고에이전시 (High-agency) · 고에포트 (High-effort) 모드를 사용하면 쿼터 (Quota)가 순식간에 녹아버린다"와 같은 목소리도 있었다.

Dynamic Workflows의 평가와도 그대로 이어지는 이야기다.

DJ 렌:

긴 문맥 (Long context)에 대해서도 언급하자면, 100만 토큰의 컨텍스트는 유지되고 있다.

게시물 중에는 1M context의 Opus 4.8이, 어떤 긴 문맥 평가에서는 GPT-5.5의 256K 시점 스코어와 상당히 비슷하다는 주장도 있었다.

이 부분도 긴 작업을 수행하는 데 있어 중요한 요소다.

DJ 미오:

안전성과 환각에 대해서는 이번에 가장 평가가 갈린 부분일지도 모른다.

긍정적인 관점에서는, 4.8은 더 정직하고, 자기 교정 (Self-correction)이 능숙하며, 불확실한 부분을 명시한다는 이야기가 많다.

Artificial Analysis도 Anthropic은 계속해서 Google이나 OpenAI의 동등 클래스보다 환각률이 상당히 낮다고 하고 있다.

DJ 렌:

반면 부정적인 목소리도 있다.

scaling01은 4.8에 대해 100회 시도의 프롬프트 인젝션 (Prompt injection) 내성에서 개선이 보이지 않은 첫 모델이라고 말했고, Anthropic 역사상 가장 eval-aware (평가 인지적)한 모델이라고도 평했다.

Andon Labs는 더 엄격해서, Vending Bench나 Blueprint-Bench 2에서 4.7이나 GPT-5.5보다 나쁘며, 더 정렬(Aligned)되어 있고, 더 신중하며, "발각되는 것을 두려워하는 것 같다"고 언급했다.

즉, 안전성을 위한 신중함이 일부 태스크의 실력을 억제하고 있는 것은 아닌가라는 의구심이네.

DJ 미오:

nrehiew_처럼, **환각 (Hallucination) 개선 자체는 이루어졌지만, 현실의 실패 모드 (Failure mode)를 이 평가가 정말로 포착하고 있는가?**라며 의문을 제기하는 사람도 있었어.

사용자 입장에서는 '평가상의 환각률'보다 '실제 업무에서 적당히 속이는가' 혹은 '요건의 일부만 충족했는데도 완료되었다고 말하는가'가 더 중요할 수도 있으니까.

DJ 렌:

여기서부터가 전략 측면의 큰 논점이야.

반응 게시물 중에는, Anthropic이 Opus보다 훨씬 더 높은 지능을 가진 새로운 클래스의 모델을, 더 강력한 사이버 안전책 (Cyber safeguards)을 적용한 뒤에 출시할 계획을 보였다는 해석이 나오고 있었어.

많은 사람이 이를 Mythos 클래스에 대한 이야기로 해석하고 있는데,

"일반 고객에게도 제공하지만, 위험한 사이버 능력은 제한된 형태로 제공한다"

라는 방향성으로 보고 있어.

DJ 미오:

즉, 이것은 단순한 로드맵 이야기가 아니라, 안전 게이팅 (Safety gating)이 제품 세그멘테이션 (Product segmentation)이 되어가고 있다는 뜻이지.

바꿔 말하면,

폭넓게 기업 전개가 가능한 안전 중심의 범용 모델과,

더 높은 능력을 갖췄지만 이용 조건이나 용도 제한이 강한 모델군으로 나뉘게 될지도 몰라.

이 사고방식에 대해 "책임 있는 배포다"라며 지지하는 사람도 있는가 하면, "그 때문에 순수한 성능 경쟁에서는 불리해지는 것 아니냐"라고 비판하는 사람도 있었어.

DJ 렌:

그리고 이번에 베이스 모델 이상으로 중요하다고 할 수 있는 것이, Claude Code의 Dynamic Workflows야.

Anthropic의 설명에 따르면, 이것은 Claude가 그 자리에서 오케스트레이션 스크립트 (Orchestration script)를 작성하고, 거대한 서브 에이전트 (Sub-agent) 군을 병렬로 기동하여 태스크를 처리하는 메커니즘이야.

프롬프트에서 "workflow"라는 단어를 사용하면 활성화된다고 설명되었어.

DJ 미오:

Anthropic의 직원이나 사용자들은 이를 통해

Claude가 계획을 세우고 엄격하게 따른다,

수백 개의 서브 에이전트를 병렬로 실행한다,

결과를 반환하기 전에 검증도 수행한다,

이런 식의 사용이 가능하다고 이야기하고 있었어.

용도로는 대규모 마이그레이션, 리팩터링 (Refactoring), 감사 (Audit) 작업처럼 단발성 응답이 아니라 공정 관리가 필요한 업무가 상정되어 있어.

DJ 렌:

구체적인 예시도 상당히 화려했어.

예를 들어 Bun을 Zig에서 Rust로 이식하는 작업에서, 약 75만 행 규모, 테스트 스위트 (Test suite)의 99.8% 통과, 첫 커밋부터 머지 (Merge)까지 11일, 그리고 수백 개의 병렬 에이전트와 각 파일당 2명의 리뷰어를 사용했다는 예시.

혹은 수백 개의 A/B 테스트 플래그를 10분 미만으로 병렬 처리하여 오래된 플래그를 특정하는 예시도 언급되었어.

DJ 미오:

당연히 여기서도 논쟁이 일었지.

일부 연구자들은 "이것은 **재귀적 언어 모델 (Recursive Language Models)**이나 프롬프트 상의 기호적 재귀 (Symbolic recursion) 같은 개념을 제품화한 것이다"라고 평가했어.

하지만 다른 사람들은 "모델을 루프로 돌려 병렬화하는 건 새로운 게 아니다. 모두가 몇 달 전부터 수동으로 해오던 방식이다"라고 반박했지.

DJ 렌:

다만 본질적인 쟁점은 '신규성'이라기보다, 비용과 하네스 (Harness) 품질이야.

Omar Sar0는 에이전트 간 상호작용은 강력하지만 토큰을 많이 소비한다고 경고했어.

Theo는 병렬 편집 시의 충돌이나 낭비되는 토큰을 문제 삼았고.

itsclivetime은 "수백 개의 병렬 서브 에이전트라니, 쿼터 (Quota)가 순식간에 사라지겠다"라며 농담조로 말했지.

KLieret는 시스템 카드 (System card)에서 유래한 이야기로서, 멀티 에이전트는 ProgramBench의 최종 품질을 반드시 높이지는 않지만, 적절한 해답에 도달하는 속도는 2배가 된다고 지적했어.

DJ 미오:

그래서 총론을 내리자면,

Dynamic Workflows는 전략적으로 매우 중요하며,

코딩 에이전트의 미래와 같다.

하지만 현재는 편집 충돌, 비용 폭발, 하네스의 미성숙함이라는 과제를 안고 있다는 것이지.

DJ 렌:

여기서 Opus 4.8에 대한 관점을 4개의 진영으로 정리하면 이해하기 쉬워.

DJ 미오:

먼저 첫 번째, 강력하게 지지하는 진영.

이들은 "Anthropic is back"이라는 느낌이야.

4.7에서 평가가 약간 떨어졌던 지점으로부터, 4.8에서 크게 반등했다고 보는 거지.

끈기가 증가했다,

거짓 진척 보고가 줄었다,

문장 및 지식 노동에 강하다,

높은 effort(노력) 설정에서의 코딩 능력이 좋다,

똑똑함과 에이전트(Agent) 같은 느낌이 있다.

Dan Shipper는 Senior Engineer benchmark에서 GPT-5.5를 이겼다고 말하며, Artificial Analysis는 종합 1위로 취급하고 있다. Mikey K도 가장 먼저 손이 가는 모델이 되었다고 언급했다.

DJ 렌:

두 번째는, 강력하지만 어디서나 지배적이지는 않은 중간파.

여기서는,

에이전트 계열 벤치마크에서는 크게 성장했다,

하지만 일부 코딩, 터미널(Terminal), 효율성 측면에서는 GPT-5.5가 우위에 있다,

게다가 하네스(Harness)나 effort 설정에 대한 의존도가 높다,

비용도 아직 변동성이 크기 쉽다,

라는 관점이다.

kimmonismus는 OpenAI를 추격하는 색채가 강하다고 보았고, cline은 Terminal-Bench 2.1에서 GPT-5.5보다 3.6% 뒤처진다고 지적했다.

DJ 미오:

세 번째는, 회의 및 비판파.

여기서는, 얼라인먼트(Alignment)나 신중함이 성능을 억제하고 있는 것이 아니냐는 시각이 강하다.

Andon Labs처럼, Vending Bench나 Blueprint-Bench 2에서 약하며, 더 안전 위주로 가느라 겁이 많아졌다는 평가다.

혹은, 요구 사항의 일부만 완료한다거나, 비용 대비 Codex가 더 나았다는 개별적인 경험담도 있었다.

DJ 렌:

네 번째는, 개인적으로 상당히 중요하다고 생각하는 구조론.

즉, 모델 그 자체보다 하네스(Harness)가 더 중요해지고 있다는 관점이다.

Dan Shipper는 모델로서는 Opus 4.8을 더 좋아하지만, 하네스로서는 Codex가 위이기 때문에 두 모델을 오간다고 말했다.

Ryan Carson 역시 모델의 교체 주기는 매우 빠르기 때문에, 팀은 **독립적인 에이전트 랩(Agent Lab)과 같은 추상화 레이어(Abstraction Layer)**를 가져야 한다고 주장했다.

실제로 Hermes, Cursor, Windsurf, Perplexity, Cline, VS Code, Copilot과 같은 서드파티 실행 환경으로의 통합이 급격히 진행되고 있다.

DJ 미오:

요컨대 지금은 모델의 승패가 가중치(Weight)의 성능만으로 결정되지 않는다는 거지.

추론 비용,

실행 환경,

오케스트레이션(Orchestration) 기능,

도구 연동,

이 모든 것을 포함해서 평가받는 시대가 되었다는 뜻이야.

DJ 렌:

이 뉴스가 왜 중요한지에 대해, 기사에서는 크게 세 가지 포인트로 정리되어 있었어.

먼저 첫 번째. Anthropic은 이제 단순한 모델 연구소가 아니야.

이번 자금 조달, 캐파(Capacity) 증강, 기업 대상 마케팅, Dynamic Workflows의 제품화를 보면, Anthropic은 자본 집약적인 에이전트 플랫폼 기업이 되려 하고 있어.

DJ 미오:

두 번째. 프런티어 경쟁의 축이 단발성 응답의 질에서 장기 워크플로우(Workflow) 실행으로 옮겨갔어.

이번에 화제가 된 개선점들은 GPQA 점수가 몇 점 올랐느냐보다,

끈기,

진척 상황에 대한 정직함,

게으름 피우지 않음,

길고 자율적으로 일할 수 있는 능력,

다수의 서브 에이전트(Sub-agent)를 관리하는 능력.

즉, 챗봇의 정답률보다 업무를 끝까지 완수하는 능력이 전면에 나서게 된 거지.

DJ 렌:

세 번째. 안전 게이팅(Safety Gating)이 제품 세그멘테이션(Segmentation)화되고 있어.

고성능 모델을 그대로 모두에게 개방하는 것이 아니라, 용도, 고객, 안전책에 따라 능력을 나누어 제공하는 거야.

특히 사이버나 바이오에 가까운 영역에서는 앞으로 이 방식이 표준화될지도 모른다는 이야기지.

DJ 미오:

여기서부터는 같은 뉴스레터에 포함되어 있던 주변 모델 출시 및 업계 동향도 가볍게 짚고 넘어가자.

먼저 Liquid AI의 LFM2.5-8B-A1B.

8B 규모의 MoE(Mixture of Experts)로 액티브 파라미터는 1.5B, 128K 컨텍스트, 38T 학습 토큰, 대규모 RL(강화학습), 오픈 웨이트(Open Weights), 단말 및 서버 최적화라는, 상당히 온디바이스(On-device) 지향적인 강력한 출시야.

다음으로 Google은 Nano Banana 2 / Pro를 일반 제공하기 시작했고, Flash는 이미지 1장당 0.045달러, Pro는 0.134달러이며, 게다가 Flash는 동영상 입력도 지원해.

ByteDance의 BAGEL은 7B 규모의 멀티모달 (Multimodal) Apache-2.0 모델로, 이미지 생성, 편집, 스타일 변환, 시각적 이해 (Visual Understanding)를 통합한 모델로서 주목받고 있어.

vLLM은 Step-3.7-Flash를 출시 첫날부터 지원하는데, 198B sparse MoE VLM, 약 11B active, 256K context, FP8/NVFP4, 추측 디코딩 (Speculative Decoding), 도구 호출 (Tool Calling), 추론 파싱 (Reasoning Parsing) 등 기능이 상당히 풍부해.

게다가 NVIDIA GLM5.1-NVFP4가 Hugging Face에서 발견되었다는 소식도 있었지.

DJ 렌:

이미지 분야에서는 Artificial Analysis가 grok-imagine-image-quality를 텍스트 기반 이미지 생성과 이미지 편집 모두에서 5위로 평가했어. 다만 OpenAI나 Google보다는 낮지만 가격은 더 저렴해.

에이전트, 코딩, 도구 관련해서는 Cursor의 Developer Habits Report가 주목받았어.

그 보고서에서는,

파워 유저가 이용의 중심이 되고 있으며,

컨텍스트 확대로 인해 입력 토큰이 비용의 대부분을 차지하게 되었고,

채택된 코드 1행당 비용이 모델군에 따라 약 7배 차이 난다는

실무적인 트렌드가 제시되었어.

DJ 미오:

Repo2RLEnv처럼, 리포지토리(Repository)나 PR, 커밋을 그대로 실행 및 검증 가능한 RL (강화학습) 환경으로 변환하는 메커니즘도 등장하고 있어서, 최상위급 코딩 모델 팀의 RL 하네스 (Harness)가 민주화되고 있는 추세야.

Clement Delangue는 TRL/vLLM의 비동기 RL 가중치 동기화 개선을 통해, 전송 트래픽을 약 100분의 1로, 예를 들어 1.2GB에서 20~35MB로 줄일 수 있었다고 소개했어.

hwchase17는 표준화된 에이전트 하네스가 늘어날수록 매니지드(Managed) 에이전트 서비스가 늘어날 것이라고 보았고, ghumare64는 모놀리식(Monolithic) 프레임워크가 아니라 교체 가능한 워커(Worker) 군으로 분해해야 한다고 주장했지.

latentspacepod는 Cognition의 클라우드 에이전트 아키텍처, 즉 백그라운드 에이전트, 메모리, 테스트, 자동 비동기 엔지니어링으로의 전환을 정리했어.

DJ 렌:

연구, 평가, 인프라 분야에서는,

ATLAS라는 Lean 4 기반의 대규모 형식화 (Formalization) 코퍼스,

과학 실험용 에이전트 벤치마크인 DiscoverPhysics,

그리고 약 6억 개의 ColBERT 벡터를 단일 CPU 코어에서 10ms 만에 검색하는 IR (정보 검색) 성과가 화제야.

음성 분야에서는 Artificial Analysis의 AA-WER Streaming 결과,

최종 정확도 1위는 Cartesia Ink-2로 3.59% WER / 0.21초,

초기 부분 결과(First partial result) 1위는 ElevenLabs Scribe v2 Realtime으로 3.65% / 0.13초,

속도 최속은 Deepgram Flux로 0.020초 / 7.36% WER를 기록했어.

NVIDIA의 LocateAnything은 1.38억 개의 샘플 학습을 통해 병렬로 박스(Box)를 디코딩하여 속도를 높였지.

그리고 Epoch AI Research는 하이퍼스케일러의 설비 투자가 2026년 7,700억 달러, 2027년 1조 달러 초과 흐름이 될 것이라고 언급했어. Anthropic의 거액 조달도 이러한 전체적인 흐름 속에서 바라봐야 해.

DJ 미오:

기업용 전개 측면에서는, Perplexity가 Excel, Word, PowerPoint, Outlook 내에서 작동하는 Perplexity Computer를 출시했어.

기업 제어를 위해 SAML SSO, 감사 로그, 세부적인 관리자 권한까지 갖추었지.

Mistral은 항공우주, 자동차, 에너지, 물리 등의 분야에서 실제 운영 사례를 발표했는데, 고객사로는 Airbus, BMW, EDF가 있어.

나아가 Mistral Vibe는 장기 생산성 및 코딩용 에이전트로서, Work mode, Code mode, CLI, VS Code 확장 기능을 갖추고 있어.

Linux Foundation의 OpenMDW-1.1은 AI 모델을 위한 관대한 법적 프레임워크로, NVIDIA가 이를 Cosmos, Isaac GR00T, Ising, Nemotron에 채택한다고 발표했어.

그 후 Reactorworld가 5,900만 달러 규모로 스텔스 모드를 해제하며, 앱 규모의 world models (세계 모델) 배포 인프라를 구축했어.

Inherent Labs는 5,000만 달러 규모의 시드 투자를 유치하며 AI for Science(과학을 위한 AI) 연구소로 출범했지.

DJ 렌:

오픈 소스, 온디바이스 (On-device), 로컬 퍼스트 (Local-first) 맥락도 뜨거워.

OpenJarvis v1.0은 로컬 추론 지향의 온디바이스 개인 비서야.

Reachy Mini를 이용한 완전 로컬 실시간 구성, 즉 llama.cpp + Parakeet + Gemma 4 E4B + Qwen3TTS 데모도 있었어.

MONET은 1.05억 개의 중복 제거 및 재캡션된 텍스트-이미지 데이터셋으로, Nano T2I 학습 코드가 포함되어 있어.

stable-worldmodel은 JEPA나 world-model 연구를 위한 오픈 플랫폼이고.

그리고 "미국에서 나온 진정한 오픈 소스 프런티어 모델 기업은 어디인가?"라는 질문에 대해, 현시점에서는 NVIDIA나 Arcee가 유력하다는 대화도 있었어.

DJ 미오:

자, 이제부터는 **Reddit recap (레딧 요약)**이야.

먼저 /r/LocalLlama와 /r/localLLM. 첫 번째 화제는 Qwen 3.6의 로컬 양자화 (Quantization) 및 코딩 에이전트 성능이야.

어떤 게시물에서는 Ollama에서 내장 llama.cpp 서버로 전환하고, Q4에서 Q6 양자화로 높였더니 코딩 에이전트 품질이 유료 API와 비슷할 정도로 향상되었다는 보고가 있었어.

듀얼 RTX 3090, MTP 활성화, 20~50 tok/s, 온도도 잘 제어되고 있다고 하네.

DJ 렌:

하지만 댓글창은 상당히 기술적으로 엄격했어.

"Q4가 어떤 Q4냐?"라는 논쟁이 있었는데, GGUF나 LLM 양자화에는 여러 방식이 있기 때문에 정확한 양자화 방식을 적지 않으면 의미가 없다는 거지.

게다가 듀얼 3090이라면 Q6는 너무 보수적이다, Q8이나 vLLM으로 Qwen3.6-27B-fp8을 돌릴 수 있을 것이다, KV 캐시 (KV Cache) 양자화 없이도 128K 컨텍스트 (Context)는 가능하다는 의견까지 나왔어.

DJ 미오:

또 다른 화제는 Qwen 35B를 12GB VRAM 환경의 LM Studio에서 120+ tok/s로 구동하며, Cline에서 100% 에이전틱 코딩 (Agentic coding)이 가능하다는 게시물이었어.

양자화는 최종적으로 상당히 낮은 비트의 split GGUF였던 모양이고, K/V Cache Quantization을 Q4_0으로 설정하여 128k 컨텍스트를 구현했다고 주장했지.

Cline을 통해 1,000행 이상의 기능 구현, 마이그레이션, 테스트, 프런트엔드·백엔드, 컴파일 에러 수정까지 해냈다는 이야기였어.

DJ 렌:

다만, 여기도 회의적인 반응이 많아.

같은 모델을 RTX 5090에서 사용한 사람이 Cline에서 명령어를 3개 정도 입력하자 컨텍스트가 꽉 차버렸고, 응답이 dead code화 되어 쓸모없게 되었다고 말했거든.

즉, '100% 에이전틱 코딩'의 병목 현상은 tokens/sec (초당 토큰 수)가 아니라 컨텍스트 관리일 수도 있다는 거지.

저비트 양자화, 특히 Q4 미만이나 IQ1_M 급은 속도는 빠를지 몰라도 품질 면에서 상당히 불안하며, MoE는 특히 무거운 양자화에 취약하지 않겠느냐는 지적도 있었어.

DJ 미오:

로컬 관련 두 번째 화제는 **LLM 서빙 인프라 (LLM Serving Infrastructure)**야.

먼저 Z.ai / Zai의 ZCube.

GLM-5.1의 약 1,000 GPU 규모 본산 추론 클러스터에서 기존의 leaf-spine 구조를 ZCube 아키텍처로 전환했더니,

스위치 및 광 모듈 비용 33% 절감,

GPU 추론 처리량 (Throughput) 15% 향상,

first-token P99 tail latency (첫 토큰 P99 꼬리 지연 시간) 40.6% 감소,

라는 상당히 놀라운 수치가 나왔어.

DJ 렌:

그 이유는 prefill/decode 분리 서빙에서 발생하는 비대칭 KV 캐시 전송으로 인한 트래픽 편중을 피했기 때문이야.

댓글에서는 "추론의 병목이 모델이나 커널 최적화보다 낮은 네트워크 계층으로 내려왔다"라는 견해가 인상적이었어.

그리고 이 이야기는 SIGCOMM ’25와 관련된 시스템 연구로도 다뤄지고 있더라고.

DJ 미오:

또 다른 하나는 vLLM이나 MCP 서버 등이 연루되는 BadHost 취약점, CVE-2026-48710이야.

이것은 Python ASGI 프레임워크인 Starlette 1.0.1 미만 버전에 영향을 미치며, 조작된 HTTP Host 헤더를 통해 경로 기반 인가 (Path-based Authorization)를 우회할 수 있다는 내용이야.

FastAPI 기반 애플리케이션이나, 거기서 파생된 vLLM, LiteLLM, MCP 서버, Hugging Face/Gradio 계열 MCP 통합, 공개된 OpenWebUI 등에 광범위한 영향을 미칠 수 있어.

DJ 렌：

리스크로는 **인증 정보나 데이터 소스의 노출, SSRF (Server-Side Request Forgery), SaaS나 메일박스 침해, 경우에 따라서는 RCE (Remote Code Execution)**까지 언급되었더라고.

대책은 Starlette를 1.0.1 이상으로 업데이트하고, 추가로 네트워크 공개 범위를 좁히는 것이야.

중요한 점은, 이것이 의존성 (Dependency)의 범위가 문제라는 점이야. LLM 도구들은 Python의 거대한 스택에 의존하고 있기 때문에, 하위 프레임워크의 취약점이 한꺼번에 확산될 수 있어.

DJ 미오：

하지만 보충 설명도 중요해.

stdio transport를 사용하는 MCP 서버, 즉 로컬 Claude Code 방식의 기본 구성에서는 HTTP 리스너를 갖지 않기 때문에 BadHost 유형의 HTTP 공격이 통하지 않아.

위험한 것은 SSE나 HTTP transport를 사용하는 MCP야.

Insights

Midnight AI Groove 26-05-28

요약

핵심 포인트

댓글

OpenAI의 Hugging Face 해킹, 수개월간의 AI 사이버 경고 확인: '판도라의 상자가 열렸다'

백악관, 새로운 모델 테스트 프레임워크 검토를 위해 화요일 AI 기업들과 회동 예정

Easterly Government Properties, 15억 달러 규모의 파이프라인 집중 속에 2026년 핵심 FFO 주당 가이던스를

오피니언: AI 분야에서 미국의 중국 대비 우위가 사실상 사라졌다. 국가 전략의 변화가 필요하다

OpenAI의 Hugging Face 해킹, 수개월간의 AI 사이버 경고 확인: '판도라의 상자가 열렸다'

백악관, 새로운 모델 테스트 프레임워크 검토를 위해 화요일 AI 기업들과 회동 예정

Easterly Government Properties, 15억 달러 규모의 파이프라인 집중 속에 2026년 핵심 FFO 주당 가이던스를

오피니언: AI 분야에서 미국의 중국 대비 우위가 사실상 사라졌다. 국가 전략의 변화가 필요하다