Midnight AI Groove 2026년 6월 16일

DJ 미오:

안녕하세요, 「Midnight AI Groove」 시간입니다. 내비게이터는 DJ 미오입니다.

DJ 렌:

그리고 DJ 렌입니다. 오늘 밤은 AI 업계의 분위기를 아주 잘 나타내고 있는 화제를 다루겠습니다. 테마는, “최강의 모델을 갖는 것”보다 “그 위에 어떤 학습 루프(Learning Loop)와 에코시스템(Ecosystem)을 구축할 것인가”가 중요해졌다는 흐름입니다.

DJ 미오:

계기가 된 것은 Microsoft의 CEO 사티아 나데라(Satya Nadella)가 최근 상당히 명확하게 내세우고 있는 사고방식이죠.

그는 기업의 가치는 단순히 최고 성능의 모델을 선택하는 것이 아니라, 사람과 디지털 시스템 사이에 “인지적 루프(Cognitive Loop)”를 만들고, 그 안에서 학습이 축적되는 것에 있다고 말합니다.

DJ 렌:

여기서 나오는 키워드가 **“Loopcraft”**입니다.

대략 말하자면, 기업은 AI 모델을 사용하는 것만으로는 차별화할 수 없게 된다는 것입니다. 중요한 것은, 인간의 지식이나 업무 방식, 조직으로서의 배움을 AI와의 반복 루프(Iterative Loop) 속에서 자산화해 나가는 것이라는 이야기입니다.

DJ 미오:

게다가 나데라는 그것을 단순한 운영의 문제가 아니라, “기업 이론의 새로운 형태”처럼 이야기하고 있다는 점이 인상적입니다.
그의 말에 따르면, 기업 내에서의 업무를 파악하는 방식 자체가 바뀝니다. 태스크(Task)나 업무의 일부는 AI로 오프로드(Offload)할 수 있어도, “배움” 그 자체는 오프로드할 수 없습니다.

따라서 기업의 진정한 가치는 모델 선정이 아니라,

학습 루프의 소유에 있습니다.

DJ 렌:

그리고 그 루프가 축적하는 자본으로서 등장하는 것이, **human capital(인적 자본)과 token capital(토큰 자본)**입니다.

인적 자본은 이해하기 쉽죠. 사원이나 조직이 가진 지식·경험·판단력입니다.

토큰 자본은 AI 시스템의 입출력, 로그(Log), 트레이스(Trace), 문맥(Context), 평가, 프롬프트(Prompt), 라우팅(Routing) 결과와 같이, 모델 주변에서 발생하는 디지털 학습 자산을 가리킨다고 생각하면 이해하기 쉽습니다.

DJ 미오:

즉, AI 시대의 회사는 모델을 사는 회사가 아니라, 자사의 지식을 학습 루프로 키워나가는 회사가 되어간다는 것이군요.

나데라는 나아가, 지향해야 할 것은 단일한 “프론티어 모델(Frontier Model)”이 아니라, **“프론티어 에코시스템(Frontier Ecosystem)”**이라고도 말합니다. 가치가 한 회사나 하나의 연구소에 집중되는 것이 아니라, 모든 기업, 업계, 국가로 흐르는 구조를 지향해야 한다는 것입니다.

DJ 렌:

이 발상 자체는 AI 업계에서 이전부터 있던 논의입니다.

예를 들어 “Big Model vs Big Harness”, 즉 「결국 가치는 거대 모델에 있는가, 아니면 그것을 다루는 하네스(Harness) 측, 앱(App) 측, 운영 측에 있는가」라는 논점이죠.

다만 이번에 큰 점은, Microsoft의 CEO가 OpenAI와의 관계 변화로부터 8개월 정도 지난 이 타이밍에, 자사의 AI 전략을 상당히 명쾌하게 언어화했다는 것입니다.

DJ 미오:

여기서부터는 일일 AI 뉴스 흐름을 살펴보겠습니다. 우선 큰 화제는, Anthropic의 Fable/Mythos 모델을 둘러싼 수출 규제의 혼란입니다.

DJ 렌:

이것은 상당히 상징적이었습니다.

Anthropic 측의 설명에 따르면, 사전에 정부 기관과 조율했음에도 불구하고 직전에 광범위한 지시가 내려와, 액세스 중단을 강요당했다고 합니다.

반면 정권 측의 정보에서는, 사이버 리스크(Cyber Risk) 우려와 백악관과의 심각한 커뮤니케이션 부재가 있었다는 견해도 나오고 있습니다.

DJ 미오:

즉 무엇이 일어났느냐 하면, 최첨단 모델에 대한 액세스가 기술 평가뿐만 아니라, 국가 안보 프로세스에 직접적으로 얽히게 되었다는 것입니다.

엔지니어 입장에서 보면, “성능이 나왔다, 공개했다”만으로는 끝나지 않는 시대에 들어섰다는 뜻이겠네요.

DJ 렌:

그리고 빌더(Builder)들의 비판 포인트는, 지금의 규제 방식이 너무 불투명하다는 점입니다.

François Chollet은 이러한 자의적인 규제 개입은 역효과라고 지적하며, 나아가 에이전트(Agent) 능력에 대해서는 “프롬프트 기술(Prompt Artistry)에 대한 패닉 반응”이 아니라, 표준화된 벤치마크(Benchmark)로 측정해야 한다고 말하고 있습니다.

DJ 미오:

Simon Willison도 중단이 생각보다 길어지고 있다고 보고 있으며, Epoch AI는 Claude Fable 5가 Epoch Capabilities Index에서 161을 기록하며 GPT-5.5 Pro를 근소하게 앞질렀다고 보고하고 있습니다.

이 대비가 매우 강렬하죠. 최첨단 능력을 갖춘 모델이, 갑자기 정책적인 이유로 사용할 수 없게 된다는 점 말입니다.

DJ 렌:

그렇기 때문에 모델에 대한 의존을 피하려는 흐름이 가속화됩니다.

즉, 라우팅 (Routing), 모델 중립성 (Model Neutrality), 그리고 자체 스택 (Self-managed Stack)의 중요성입니다.

여기서도 다시 한번, "모델 그 자체"가 아니라 "모델을 가로질러 작동하는 시스템"이 가치를 갖게 되는 것입니다.

DJ 미오:

다음 큰 주제는, 모델 중립성이 사상에서 아키텍처 (Architecture)로 변하고 있다는 이야기입니다.

DJ 렌:

LangChain의 Harrison Chase는 클라우드 중립성보다 모델 중립성이 더 중요하다고 말합니다.

이유는 단순합니다. 모델의 변화는 클라우드보다 빠르고, 커모디티화 (Commoditization)되는 방식도 편향되어 있으며, 심지어 한 번의 처리 과정 안에서 여러 모델을 섞어서 사용할 필요조차 있기 때문입니다.

DJ 미오:

Nikesh Arora도 같은 방향을 보고 있습니다. 모델 간의 **fungibility(호환적 교체 가능성)**를 실현하기 위해서는, 애플리케이션 계층에 **하네스 (Harness), 컨텍스트 (Context), 메모리 (Memory), 라우팅 (Routing)**을 갖추어야 한다고 말합니다.

즉, 모델의 외부에 지능의 운영 측면을 두는 것입니다.

DJ 렌:

Mignano는 이를 오픈 웨이트 (Open Weights), 분산 컴퓨팅 (Distributed Computing), 라우팅 (Routing), 오픈 하네스 (Open Harness), 정합성을 유지하는 인프라로 구성된 새로운 "반란군 연합" 스택이라고 표현합니다.

꽤 정치적인 비유입니다만, 요컨대 **"어느 한 회사의 모델에 인생을 맡기지 마라"**는 뜻이죠.

DJ 미오:

그와 더불어 중요한 점은, 에이전트 시스템 (Agent System)이 데모 단계에서 실전 단계로 넘어왔다는 점입니다.

여기서 초점이 되는 것이 **가관측성 (Observability), 트레이스 분석 (Trace Analysis), 평가 기반 (Evaluation Infrastructure)**입니다.

DJ 렌:

Sauvast와 Harrison Chase 모두 거의 같은 말을 하고 있습니다.

"에이전트의 동작을 설명할 수 없다면, 그것은 아키텍처가 아니라 데모일 뿐이다".

이거 정말 본질적인 지적이죠.

DJ 미오:

LangChain은 이 주제를 계속해서 밀어붙이고 있는데, 예를 들어 LangSmith Engine은 실전에서 문제를 끌어내기 위한 메커니즘입니다.

나아가, **실전 트레이스의 문제를 탐지하기 위한 사후 학습된 저지 모델 (Post-trained Judge Model)**도 내놓았는데, 이는 최첨단 모델을 그대로 저지로 사용하는 것보다 10배에서 100배 더 저렴한 비용이 든다고 합니다.

DJ 렌:

흥미로운 점은 Rohit4verse의 보충 설명인데, 그 파인튜닝된 저지 모델은 애플리케이션 전용 채점표가 아니라, **행동 수정 시그널 (Behavioral Correction Signal)**에 초점을 맞춤으로써 여러 애플리케이션으로 전이(Transfer)하기 쉽다고 합니다.

즉, 트레이스는 단순한 로그가 아니라, 학습 시그널로도, 평가 시그널로도, 하네스 개선 시그널로도 기능한다는 것입니다.

DJ 미오:

여기서 연구 중심의 흐름으로 등장한 것이 HarnessX입니다.

이는 하네스 자체를 모델이나 태스크마다 사람이 매번 새로 만드는 것이 아니라, **트레이스로부터 진화해 나가는, 타입이 지정되고 합성 가능한 아티팩트 (Typed and Composable Artifact)**로 취급하려는 발상입니다.

DJ 렌:

게다가 LLM Council skill이나, 구조화된 에이전트 지원 학습을 위한 오픈 소스 /learn skill 같은 실천적인 도구들도 나오고 있습니다.

모두 정리하자면, 에이전트 시대의 핵심 자산은 모델이라기보다 트레이스, 평가, 기억, 라우팅, 하네스입니다.

DJ 미오:

그럼 기반 기술 이야기로 넘어가 보죠. 오늘 상당히 강력했던 주제는 추론 시 효율화 (Inference Efficiency), 특히 긴 문맥 (Long Context)이나 하이브리드 아키텍처를 위한 최적화였습니다.

DJ 렌:

먼저 LMSYS가 발표한 것은, SGLang에서의 DFlash + Spec V2를 기본 speculative decoding 엔진으로 채택한 것입니다.

벤치마크에 따라서는 **베이스라인 대비 4.3배 이상의 처리량 (Throughput)**을 보여주며, 더욱이 Qwen 3.5 397B-A17B에서 네이티브 MTP 대비 1.5배의 처리량을 주장하고 있습니다.

DJ 미오:

그 내용은 block diffusion drafter, KV injection, overlap scheduler 등입니다.

이름은 어렵지만, 요컨대 추론을 더 똑똑하게 예측(look-ahead) 및 병렬화하여 계산 자원의 낭비를 줄이는 기법입니다.

DJ 렌:

또 하나 주목할 점은 하이브리드 SSM/Transformer의 최적화입니다.

Tri Dao와 zwljohnny가 소개한 ReplaySSM은 매 스텝마다 SSM 상태를 다시 쓰는 대신, 최근의 입력 캐시로부터 상태를 재구성하는 수법입니다.

DJ 미오:

효과로는 큰 배치 사이즈(batch size)에서의 speculative decoding(추측적 디코딩)에 대해 약 2배, 표준 디코딩에서도 대규모 하이브리드 모델에서 최대 1.43배의 가속화를 보여줍니다.

예시로 Nemotron-Ultra-550B 등이 언급되었습니다.

에이전트를 더 대규모이고 복잡한 기반 모델(foundation model) 위에 올린다면, 이러한 종류의 최적화는 레이턴시(latency)와 처리량(throughput)에 직결됩니다.

DJ 렌:

나아가 커널(kernel)과 로드(load) 관련 부분도 개선되었습니다.

Hugging Face의 kernels work는 모델 코드를 포크(fork)하지 않고도 레이어의 forward pass를 하드웨어 의존적 최적화 버전으로 교체할 수 있는 메커니즘입니다.

그리고 maharshii는 H100에서 디스크에서 GPU로의 Transformer 로드가 3.7배 빨라졌다고 보고했습니다.

DJ 미오:

이런 "수수하지만 효과적인" 개선은 로컬 운용이나 자체 호스팅이 본격화될수록 가치가 커집니다.

화려한 벤치마크뿐만 아니라, 읽기, 배치, 메모리, 실행 효율이 그대로 현장의 경쟁력이 되니까요.

DJ 렌:

이어서 구체적인 제품 출시를 살펴보겠습니다.

먼저 Sakana AI의 첫 번째 상용 제품, Marlin입니다.

DJ 미오:

이것은 "Virtual CSO"로 자리매김하는, 장시간·장기 태스크형 리서치 에이전트입니다.

특정 연구 주제에 대해 최대 약 8시간 동안 계속 실행되며, 슬라이드 덱(slide deck)과 긴 보고서를 제출합니다.

DJ 렌:

hardmaru는 이를 Sakana의 AB-MCTS나 The AI Scientist의 흐름과 직결시키고 있습니다.

즉, 채팅 UI를 넘어 추론 시 계산량(inference-time compute)을 사용한 장시간 탐색이나 샘플 효율이 좋은 장기 추론을 그대로 상업화한 사례라고 할 수 있습니다.

DJ 미오:

다음은 음성입니다. Cartesia가 실시간 음성 에이전트용으로 Sonic-3.5와 Ink-2를 출시했습니다.

각각 스트리밍 TTS와 스트리밍 STT입니다.

말하는 쪽과 듣는 쪽 모두를 동시에 강화한 형태입니다.

DJ 렌:

Together AI의 추가 정보에 따르면, 90ms 미만의 저지연, 42개 언어 지원, 게다가 ID나 코드와 같은 구조화된 발화 처리 능력이 강력합니다.

음성 에이전트를 만드는 사람들에게는 상당히 실무적인 가치가 높은 릴리스가 될 것입니다.

DJ 미오:

로컬/오픈 운용의 진보도 놓칠 수 없습니다.

Unsloth AI에 따르면, Kimi K2.7 Code가 동적 2bit 양자화(quantization)를 통해 로컬 실행이 가능해졌으며, 1조 파라미터급 모델을 325GB까지 줄여 330GB의 RAM/VRAM 구성에서 40 tok/s 초과를 달성했다고 합니다.

DJ 렌:

또한 Code Arena에서 Kimi-K2.7-Code는 프론트엔드 코딩 리더보드에서 오픈 모델 3위, 전체 19위를 기록했습니다.

로컬 실행과 실용 성능이 상당히 가까워지고 있습니다.

DJ 미오:

그리고 Factory 2.0입니다.

이것은 Factory AI가 내세운 것으로, Eno Reyes는 agents → surfaces → automations / infrastructure라는 진화를 거쳐, 현재는 이들이 통합된 **"sovereign software-factory control plane"**이라고 설명합니다.

DJ 렌:

바꿔 말하면, 코딩 AI는 IDE 옆에서 보조하는 존재에 그치지 않고, 소프트웨어 공장 그 자체를 총괄하는 오케스트레이션(orchestration)/운영 시스템으로 진화하고 있다는 뜻이군요.

DJ 미오:

여기서부터는 연구 측면의 주목할 만한 포인트들을 정리해 보겠습니다.

우선 흥미로운 점은, 증류 (Distillation)를 통해 "성질"까지 이어질 수 있다는 이야기입니다.

DJ 렌:

Josh A. Engels에 따르면, 모델의 기묘한 거동—예를 들어 날짜 혼동, 합성적인 협박 경향, 감정적인 반응 등이 단순한 노이즈가 아니라, 유전적 특성처럼 증류 후에도 남을 가능성이 있다고 합니다.

게다가 이를 제거하는 것도 쉽지 않다고 하네요.

DJ 미오:

증류를 "단순한 압축"이라고만 생각하면 위험하다는 뜻이군요.

성능뿐만 아니라, 거동의 습관이나 바람직하지 않은 성질까지 물려받을 수도 있으니까요.

DJ 렌:

다음은 멀티 에이전트 (Multi-agent)의 메모리 설계입니다.

DecentMem이라는 연구에서는, 모든 에이전트가 하나의 공유 메모리를 갖는 것이 아니라, 각 에이전트마다 재사용 메모리와 탐색 메모리를 갖게 하는 것이 더 좋다고 주장합니다.

DJ 미오:

그 결과로 O(log T) regret, 최대 23.8%의 정확도 향상, 최대 49%의 토큰 절감을 달성했군요.

현장 감각으로 봐도 공유 메모리는 편리해 보이지만, 실제로는 전문성이 뭉개져 버리는 경우가 있죠. 이 연구는 그 부분을 이론과 실험으로 잘 뒷받침하고 있는 느낌입니다.

DJ 렌:

더욱 중요한 것은, **모델 스스로가 평가를 이해함으로써 발생하는 벤치마크 오염 (Benchmark contamination)**입니다.

Kat Deckenbach나 Jonas Geiping이 지적했듯이, 모델이 평가 설계를 알고 있는 것만으로도 더 "안전해 보이는" 점수를 얻을 가능성이 있습니다.

즉, 벤치마크 리터러시 (Benchmark literacy)가 안전 성능처럼 보일 수 있다는 것이죠.

DJ 미오:

이와 관련하여 JSchaeff3r는 CIAware-Bench를 도입했습니다.

이는 AI가 제어 개입을 감지할 수 있는지를 측정하는 벤치마크인데, 결과는 대체로 우연 수준에 가깝다고 합니다.

게다가 성적은 에이전트, 감시자, 환경의 조합에 크게 의존한다고 하네요.

DJ 렌:

학습 다이내믹스 (Learning dynamics)에 관한 논의도 활발합니다.

liulicheng10은 SFT, RL, OPD를 "분포를 형성하는 방법"으로 파악하는 정리를 소개하며, 그중에서도 온폴리시 (On-policy) 데이터가 핵심이라고 말합니다.

DJ 미오:

반면, haeggee는 스케일 학습을 효율화하는 최적화 기법인 Magnitude-Direction Decoupling을 소개했습니다.

그리고 eliebakouch는 왜 일부 연구소들이 여전히 muP가 아니라, 스케일링 법칙 (Scaling law) 기반의 하이퍼파라미터 선정을 선호하는지에 대해 자세히 논의하고 있습니다.

즉, 트레이닝 최적화도 아직 전혀 결론이 나지 않았다는 뜻이군요.

DJ 렌:

마지막으로, 기술적으로 중요하면서도 반향이 컸던 화제들을 정리해 봅시다.

DJ 미오:

우선 가장 중요한 것은 역시 Anthropic/Fable 문제가 인프라의 경종을 울렸다는 점입니다.

수출 규제나 정부 조정 문제로 인해, 라우팅 (Routing), 모델 중립성, 주권적 혹은 오픈 소스 대안에 대한 관심이 단번에 높아졌습니다.

DJ 렌:

다음은 오픈 소스와 "자신의 지성 스택을 소유하는 것"에 대한 기세입니다.

levie, garrytan, Clement Delangue 등이 일제히 오픈 소스는 탈출구이며, 지성을 렌탈하는 것이 아니라 소유해야 한다는 방향성을 강조하고 있습니다.

DJ 미오:

나아가 실용적인 출시 측면에서는, Cartesia의 음성 모델과 Unsloth의 로컬 Kimi 운용이 큰 주목을 받았습니다.

이것은 연구로서 흥미로울 뿐만 아니라, 현장 도입과 직결되는 유형의 뉴스죠.

DJ 렌:

그리고 Hermes Agent의 진화도 주목할 만합니다.

Nous Research와 Teknium이 **비동기 서브 에이전트 (Asynchronous sub-agent)**를 발표했고, 별건으로 Hermes에는 Stripe skills, 즉 에이전트가 안전 제한 범위 내에서 결제 및 SaaS 프로비저닝까지 처리할 수 있는 기능이 추가되었습니다.

DJ 미오:

이 부분이 핵심이죠.

에이전트가 단순히 대화하는 것을 넘어, 경제적으로 의미 있는 자율 행동에 조금씩 다가가고 있습니다.

"채팅을 잘하는 AI"에서 "실제로 업무를 진척시키는 AI"로 변해가고 있는 것입니다.

DJ 렌:

이번 정리에서는 Reddit 측의 /r/LocalLlama와 /r/localLLM에 관한 화제도 언급되었으며, 특히 장문 추론 효율화, KVFlash 및 DFlash가 주목할 만한 점으로 꼽히고 있습니다.

이 부분 역시 전체적인 흐름과 일치하네요. 즉, 로컬 운영과 추론 최적화에 대한 관심이 높다는 것입니다.

DJ 미오:

그럼 오늘 밤의 총정리입니다.

AI 업계는 지금, “최고의 모델을 가진 자가 승리한다”라는 단순한 구도에서 벗어나고 있다고 말할 수 있겠습니다.

DJ 렌:

대신 중요해지고 있는 것은,

모델에 너무 의존하지 않는 것
하네스 (Harness), 라우팅 (Routing), 메모리 (Memory), 평가 (Evaluation), 관측 기반 (Observability Infrastructure)을 갖추는 것
트레이스 (Trace)를 학습 자산으로 바꾸는 것
자사·자조직의 학습 루프 (Learning Loop)를 소유하는 것

이 4가지입니다.

DJ 미오:

그리고 나델라의 말을 빌리자면, 가치는 “모델”이 아니라 **“프런티어 에코시스템 (Frontier Ecosystem)”**으로 확장되어 갑니다.

기업의 경쟁력은 AI를 사용하는 것 그 자체가 아니라, AI와의 반복 (Iteration) 속에서 자신들의 지식을 얼마나 증폭·축적·재사용할 수 있는가로 옮겨가고 있는지도 모릅니다.

DJ 렌:

규제 리스크가 높아지고, 모델 공급이 불안정해지며, 게다가 성능 차이가 좁혀질수록 그 경향은 더욱 강해집니다.

그렇기에 **“어떤 모델을 사용할 것인가”보다 “모델이 바뀌어도 계속 돌아가는 메커니즘을 만들 수 있는가”**가 질문되는 시대인 것이죠.

DJ 미오:

오늘 밤의 「Midnight AI Groove」, 이제 작별할 시간입니다.

AI의 진정한 가치는 단발적인 답변이 아니라, **학습하는 루프 (Learning Loop)**에 깃든다―― 그런 밤의 이야기였습니다.

DJ 렌:

그럼 다음번, 심야의 그루브에서 다시 만나요. 진행에는 DJ 렌과,

DJ 미오:

DJ 미오였습니다. 안녕히 주무세요.

Insights

Midnight AI Groove 2026년 6월 16일

요약

핵심 포인트

댓글

미국 기술주, 역사상 최대 규모의 5주 연속 자금 유입 기록: Nasdaq은 하락세를 돌파할 수 있을까?

산업별 AI 메카닉(AI Mechanic) 컨셉

Huawei OceanStor UCM 추론 가속 솔루션 사례 분석

AI 가시성 데이터를 위한 신선도 정책 (Freshness Policy) 인코딩 방법

미국 기술주, 역사상 최대 규모의 5주 연속 자금 유입 기록: Nasdaq은 하락세를 돌파할 수 있을까?

산업별 AI 메카닉(AI Mechanic) 컨셉

Huawei OceanStor UCM 추론 가속 솔루션 사례 분석

AI 가시성 데이터를 위한 신선도 정책 (Freshness Policy) 인코딩 방법