Midnight AI Groove 26-06-29

DJ 미오:

안녕하세요. 「Midnight AI Groove」의 내비게이터 DJ 미오입니다.

DJ 렌:

그리고 DJ 렌입니다. 오늘 밤은 어떤 AI 뉴스 총괄 내용을 바탕으로, 지난 며칠간 AI 업계에서 무엇이 주목받고 있었는지 차분하면서도 심도 있게 파헤쳐 보겠습니다.

DJ 미오:

제목으로는 「오늘은 별로 큰 일이 일어나지 않았다」라는 톤이지만, 실제로 읽어보면 전혀 "텅 비어" 있지 않더라고요. 오히려 화려한 초대형 발표가 적은 날에, 현재 AI 업계의 무게 중심이 어디에 있는지 잘 보이는 회라는 인상이었습니다.

DJ 렌:

맞아요. 대상 기간은 2026년 6월 27일부터 29일경입니다.

Twitter, Reddit, 그리고 일부 커뮤니티 동향을 정리한 내용으로, 전체적으로는

비침습형 BCI, 즉 뇌파로부터 글자나 문장을 복원하는 연구추론 가속화, 특히 speculative decoding의 진전에이전트(Agent)의 구현 사상이 「최강 모델 선택」에서 「하네스(Harness) 설계」로 옮겨가고 있는 것오픈 웨이트(Open-weight) 모델에 대한 액세스의 상업화평가 기반 및 RL(강화학습) 훈련 인프라의 정비****개발자용 프로덕트의 현실적인 전진

이 부분이 핵심이었습니다.

DJ 미오:

먼저 전체적인 분위기를 보자면, 기사 자체는 「quiet day」「not much happened today」라는 텐션이지만, 실제로는 상당히 다방면의 진전이 나열되어 있었습니다.

DJ 렌:

그중에서도 특히 강하게 다뤄진 것이 Meta의 비침습형 brain-to-text 연구, 그리고 Cursor의 iOS 대응과 리모트 에이전트(Remote Agent), Cline의 월정액 액세스 상품화, Cognition의 Devin Fusion, Arena의 상업적 규모 확대, 그리고 중국의 인프라·하드웨어 전략에 대한 경계감이었습니다.

DJ 미오:

즉, 「모델의 성능만을 보는 단계」에서,

어떻게 운용할 것인가, 어떻게 배포할 것인가, 어떻게 평가할 것인가, 어떻게 비용을 낮출 것인가와 같은 구현·유통·기반의 이야기로 무게 중심이 옮겨가고 있는 느낌이네요.

DJ 렌:

네. AI가 단순한 연구 뉴스를 넘어, 공급망·전력·데이터 센터·배포 형태·UI·평가 CI/CD까지 포함한 산업 시스템이 되어가고 있다는 분위기가 전편에 흐르고 있었습니다.

DJ 미오:

그럼 먼저, 가장 기술적 관심을 모았던 화제부터 가볼까요.

Meta의 Brain2Qwerty v2.

DJ 렌:

이것은 요컨대, 비침습형 뇌 신호 기록으로부터 실시간으로 문장 수준의 텍스트를 복호화하는 시스템입니다.

중요한 점은 「글자를 한 글자씩 맞히는」 것뿐만 아니라, 단어나 의미 수준을 다루고 있다는 점입니다.

DJ 미오:

"비침습형"이라는 것은 두개골을 열고 전극을 넣는 타입이 아니라, MEG나 EEG와 같이 몸을 상하게 하지 않는 계측을 의미하죠.

기존에는 침습형 BCI가 정밀도 면에서 유리했지만, 이번 릴리스는 그 차이를 어느 정도 좁혔다고 받아들여지고 있습니다.

DJ 렌:

보고된 수치로는 **전체 약 61%의 단어 정확도, 최상의 피험자에서 78%**를 기록했습니다.

피험자는 9명의 자원봉사자이며, 제어된 타이핑 조건에서 학습하고 있습니다.

따라서 물론 일반 소비자용 제품이 곧 나온다는 이야기는 아닙니다.

DJ 미오:

그 점이 중요하죠.

이것은 「지금 당장 뇌로 스마트폰을 칠 수 있다」는 것이 아니라,

연구실 조건 하에서 비침습형으로도 문장 수준의 복호화가 현실성을 갖기 시작했다는 연구상의 이정표인 것이니까요.

DJ 렌:

게다가 기술적인 핵심은 단순한 센서 개선만이 아닙니다.

생(Raw) 신경 신호를 모델링하는 층과 언어 모델 측의 보완 능력이 잘 맞물림으로써, 문장으로서 실용적인 복호가 가능해졌다는 점에 있습니다.

DJ 미오:

기사 요약에서도 코드 공개나 데이터 공개 이야기가 나왔었죠.

DJ 렌:

네. Meta 측이 v1/v2 학습 코드를 공개하고, BCBL이 v1 데이터셋을 공개한다는 흐름입니다.

연구 커뮤니티로서는 상당히 의미가 있습니다. 재현이나 추시, 파생 연구가 쉬워지기 때문입니다.

DJ 미오:

그리고 이 화제에는 또 다른 재미있는 측면이 있었죠.

에이전트 지원 연구의 실례로서도 언급되었다는 점.

DJ 렌:

Meta의 설명에 따르면, Auto Research workflow, 즉 **코딩 에이전트(Coding Agent)를 사용한 연구 루프(Research Loop)**가 표준적인 HPO, 다시 말해 일반적인 하이퍼파라미터 최적화(Hyperparameter Optimization)를 넘어서는 개선점을 찾아내어, 단어 오류율(Word Error Rate)을 더욱 낮췄다는 이야기가 나왔어.

DJ 미오:

여기서 포인트는 “에이전트가 연구자를 대신했다”라는 과장된 이야기가 아니라,

폐쇄 루프(Closed-loop) 실험 반복을 돌리는 보조 도구로서, 코딩 에이전트가 상당히 유효해졌다는 현실적인 함의지.

DJ 렌:

맞아.

「vibe-science」 같은 과장된 표현을 채택할지는 별개로 하더라도, 적어도 실험계 ML 시스템의 개선 사이클에 에이전트가 편입되고 있다는 점은 중요해.

DJ 미오:

다음은 추론(Inference). 여기도 상당히 중요했어.

특히 DeepSeek의 DSpark.

DJ 렌:

DSpark는 speculative decoding, 즉 메인 모델 앞에 “초안(Draft)”을 만들고 그 타당성을 고속으로 검증하여 전체 처리량(Throughput)을 높이는 계통의 수법에서 중요한 진전으로 소개되었어.

DJ 미오:

해설에서는 두 가지 요점이 강조되었지.

하나는 더 나은 초안 생성(Draft Generation), 다른 하나는 더 똑똑한 검증 스케줄링(Verification Scheduling).

DJ 렌:

그래.

보고된 개선 사항으로는, Qwen3-4B 상에서 accepted length가 Eagle3 대비 30.9% 증가, DFlash 대비 16.3% 증가했어.

게다가 DeepSeek-V4-Flash와 V4-Pro의 preview engine에 실제 운영 환경에 투입되었다는 점이 커.

DJ 미오:

즉 연구 데모가 아니라, 운용 품질의 추론 경로(Inference Path)로서 사용되기 시작했다는 거지.

DJ 렌:

그 때문에 커뮤니티 측에서는 “단일 GPU 환경에서의 speculative decoding의 새로운 SOTA(State-of-the-Art) 후보가 아닌가”라는 견해가 나오고 있고,

게다가 vLLM 커뮤니티가 이미 통합을 진행하고 있다는 흐름으로 이어지고 있었어.

DJ 미오:

기사 전체에서는 여기서 조금 더 넓게, 현재의 추론 병목(Bottleneck)에 대한 이해도 정리했었지.

DJ 렌:

응.

중요한 것이 prefill과 decode의 차이, 그리고 TTFT와 inter-token latency의 차이야.

DJ 미오:

조금 풀어서 설명하자면,

prefill은 처음에 프롬프트 전체를 읽어 들여 내부 상태를 만드는 공정 -
decode는 그 후, 1토큰씩 생성해 나가는 공정 -
TTFT는 첫 번째 토큰이 나오기까지의 시간 -
inter-token latency는 그 이후 각 토큰 사이의 지연

이라는 거지.

DJ 렌:

맞아.

그리고 지금의 실전 추론에서는 특히 decode 측이 KV 캐시(KV Cache) 읽기 문제로 인해 **메모리 대역폭 제한(Memory Bandwidth Bound)**이 되기 쉬워.

즉, 단순한 FLOPs의 많음보다 KV 캐시 최적화(KV Cache Optimization), grouped-query attention (GQA), attention 재설계, 그리고 speculative decoding이 효과적이야.

DJ 미오:

“GPU의 연산 성능이 높으면 무엇이든 빠르다”가 아니라,

실제 운용에서는 메모리 액세스와 캐시 설계가 초중요하다는 뜻이네.

DJ 렌:

그 맥락에서, NVIDIA/vLLM에 의한 self-hosting 실천도 나왔어.

Nemotron-3-Ultra 550B를 4대의 DGX Spark로, 단일 OpenAI 호환 엔드포인트로서 서빙하는 가이드가 소개되었어.

DJ 미오:

이것은 단순한 “대단하지?” 식의 데모라기보다,

프런티어급에 가까운 거대 모델을 프라이빗한 멀티 노드 구성으로, 표준적인 서빙 스택 위에서 돌리는 것이 평범해지고 있다는 의미에서 커.

DJ 미오:

이어서 에이전트. 여기는 이번에 상당히 본질적인 테마였다고 생각해.

기사에서는 agent systems의 무게 중심이 “best model을 고르는 것”에서 “harness engineering”으로 옮겨가고 있다고 적혀 있었어.

DJ 렌:

이거, 굉장히 중요한 관찰이야.

즉 승부처가 “어떤 단일 모델이 가장 똑똑한가”가 아니라,

고가의 모델과 저가의 모델을 어떻게 조합하고, 어느 단계에서 누구에게 업무를 맡길 것인가라는 오케스트레이션 (Orchestration)으로 옮겨가고 있다.

DJ 미오:

그 대표적인 예가 Cognition의 Devin Fusion이야.

DJ 렌:

맞아요.

이것은 **하이브리드 모델 코딩 하네스 (Hybrid Model Coding Harness)**로,

"Fable 수준의 품질을 유지하면서 35% 비용 절감"을 내세우고 있어.

생각하는 방식은, 고가의 플래너 (Planner)를 루프 (Loop)에 남겨두면서, 경계가 명확한 서브태스크 (Sub-task)를 저가 모델에 위임하는 것이야.

그리고 **캐시 효율 (Cache Efficiency)이나 문맥의 연속성 (Context Continuity)**을 잘 유지하지.

DJ 미오:

sidekick이나 mid-session routing 이야기도 나왔었지.

DJ 렌:

그래요.

높은 모델이 전부 다 하는 게 아니라, 옆에서 보조하는 역할의 모델을 끼워 넣거나, 세션 도중에 역할에 따라 모델을 전환하는 것이야.

이를 통해 **품질·비용·레이턴시 (Latency)**를 균형 있게 맞출 수 있어.

DJ 미오:

그리고 또 하나 흥미로운 게 dynamic subagents야.

LangChain 주변 이야기로서, 메인 에이전트 (Main Agent)가 단순히 툴 호출 (Tool Calling)만 하는 게 아니라, 오케스트레이션 코드 자체를 작성하며 돌아가는 워크플로우 (Workflow)가 주목받고 있었어.

DJ 렌:

이 지점은 추상도의 전환점이네요.

지금까지의 "툴을 사용하는 챗봇"에서,

**대규모 태스크 분배를 위한 프로그래머블한 제어 평면 (Programmable Control Plane)**으로 에이전트가 변해가는 거예요.

즉 에이전트 스스로가 서브 에이전트 (Sub-agent)를 어떻게 편성할지를 작성하게 되는 거죠.

DJ 미오:

검색·취득 이야기도 있었지.

LlamaIndex의 Retrieval Harness.

DJ 렌:

이것도 상징적이에요.

**시맨틱 서치 (Semantic Search), grep, 파일 리스팅 (File Listing), 파일 읽기 (File Reading)**를 하나의 에이전트 루프에 통합한다는 것.

요컨대, "검색은 grep만으로 충분하다" 같은 단순화에 대한 반론으로,

실제로는 의미 검색도 구문적 탐색도 파일 탐색도 읽기도 전부 필요하다는 현장 감각에 가까운 설계입니다.

DJ 미오:

평가 측면에서는, LangChain 계열에서 Trace Judge라는, 궤적 오류 (Trajectory Error)를 검출하는 평가 모델도 나왔어.

게다가 폐쇄형 모델의 100분의 1 정도의 비용이라고 하더라고.

DJ 렌:

이것도 큰 변화네요.

에이전트가 보급되면 최종 출력뿐만 아니라, **중간의 행동 궤적 (Trajectory)**을 평가해야만 해요.

그를 위한 저렴한 judge가 필요해지는 거죠.

DJ 미오:

다음은 오픈 모델 주변.

특히 GLM 5.2가 강력한 존재감을 보여주고 있었어.

DJ 렌:

흥미로운 건, 오늘 새로 공식 발표가 있었다기보다,

"진지한 옵션 (Serious Option)으로서의 기본 후보"로 취급받기 시작했다는 점이에요.

DJ 미오:

그 상징이 Cline의 월 9.99달러 패스야.

GLM 5.2, DeepSeek, Kimi, MiniMax, Qwen 등으로의 할인 액세스를 통합 제공하지.

DJ 렌:

여기서 중요한 건, 오픈 웨이트 (Open Weight)나 복수 프로바이더의 모델 이용이 사상으로서 논의되는 것을 넘어, 프로덕트로서 번들 판매되기 시작했다는 점입니다.

API 키 관리나 프로바이더 변경의 번거로움을 줄여서, 사용 편의성을 상품화하고 있어요.

DJ 미오:

즉, 경쟁 축이 "모델 그 자체"뿐만 아니라,

액세스의 마찰 (Friction)을 얼마나 낮추느냐로도 확장되고 있는 거야.

DJ 렌:

또한, GLM 5.2는 Mixture-of-Agents 구성에 포함되거나, DevRel용 조사 에이전트의 드라이버로 사용되는 등,

"사용 가능한 오픈 모델"로서 개발자들의 손에 들어가 있는 모습이 엿보입니다.

DJ 미오:

그리고 또 하나의 큰 흐름은, 중국의 오픈 웨이트 경쟁 가속화.

여기서는 Meituan의 LongCat 2.0 / Owl Alpha에 관한 이야기가 나왔어.

DJ 렌:

스펙으로는,

총 파라미터 1.6T, 활성(Active) 약 48B, 컨텍스트 1M, 학습 토큰 35T, n-gram embeddings, sparse attention, 그리고 중국산 가속기 5만 개로 훈련했다는 주장이야.

물론 세부 사항에는 불확실성이 있지만, 만약 큰 틀이 맞다면,

중국 국내 하드웨어만으로 이 규모의 근프론티어 모델(Near-frontier model)을 훈련한 첫 사례일지도 모른다는 전략적 중요성이 있어.

DJ 미오:

그래서 여기서 인프라 전략 이야기가 연결되는 거구나.

기사 서두에서도, 중국의 전력, 데이터 센터, 국산 하드웨어 전략이 심각한 위협이 되고 있다는 지적이 소개되었었지.

DJ 렌:

맞아요.

그리고 그 대항책으로 나오는 말이 굉장히 심플해요.

“Build power and datacenters.”

즉, AI 경쟁은 알고리즘뿐만 아니라, 전력 공급과 물리적 인프라의 싸움이 되고 있어요.

DJ 미오:

게다가 정책·상업 측면에서는,

API 규제는 오히려 개발자들을 오픈 웨이트(Open-weights)로 내몰 수 있다는 논의도 다뤄지고 있었어.

DJ 렌:

이 부분도 recurring theme, 즉 반복해서 나타나는 논점이에요.

API는 막을 수 있지만, 웨이트(Weights)는 배포되면 억제하기 어렵다.

따라서 규제나 제한이 강해질수록, 개발자들은 스스로 제어할 수 있는 가중치에서 가치를 찾는다는 구조적인 시각이죠.

DJ 미오:

다음은 훈련 인프라와 평가.

여기서는 Snowflake Arctic RL이 눈에 띄었어.

DJ 렌:

이것은 상당히 강력한 인프라 릴리스로 소개되고 있는데,

VeRL 및 SkyRL에 통합되었고, 여기에 ZoRRo를 통해

actor-update를 최대 6배 가속화, end-to-end로 3.5배 가속화했습니다.

결과적으로, Text2SQL 훈련을 32대의 H200으로 약 5일에서 약 36시간으로 단축했다는 이야기예요.

DJ 미오:

꽤 실무적인 가치가 있는 숫자네.

게다가 Snowflake는 자사의 Arctic-Text2SQL-R2가 기업 SQL 벤치마크에서 Gemini 3.1 Pro나 Claude 4.7의 테스트 구성을 상회했다고도 주장하고 있어.

DJ 렌:

더불어, text-to-SQL과 multi-hop QA의 open recipes를 공개하고 있어요.

즉, 단순히 “모델을 출시했다”가 아니라, 훈련의 재현 가능한 레시피와 기반까지 포함해서 제공하려 한다는 뜻이죠.

DJ 미오:

평가 기반에서는, Arena가 완전히 다음 단계로 진입한 느낌이었어.

DJ 렌:

네.

수치로는, 7억 건 이상의 대화, 8,200만 건 이상의 투표, 월간 1,000만 명 이상의 방문자.

그리고 주목할 점은, 단순한 선호도 투표 리더보드에서 agent-mode 평가, 즉 태스크 완료율이나 할루시네이션(Hallucination) 비율 같은 “운용 후 평가”로 축을 옮기고 있다는 점이에요.

DJ 미오:

그래서 기사에서는 Arena가 이제 단순한 벤치마크 기획이 아니라,

모델의 post-deployment CI/CD 레이어가 되어가고 있다고 보고 있었지.

DJ 렌:

나아가 주변 전문 인프라로서,

W&B의 ARIA: W&B 내의 autoresearch agent Micro-Agent routing-
Nemotron-TwoTower: 자기회귀형 LLM을 확산(Diffusion) 스타일의 병렬 생성기로 복제하여, **30B 모델로 AR 품질의 98.7%를 유지하면서 2.42배의 처리량(Throughput)**을 주장

등도 소개되어 있어서,

전체적으로는 범용 채팅 모델 한 방 승부가 아니라, 용도별로 특화된 기반이 늘어나고 있음을 볼 수 있어요.

DJ 미오:

여기서, 보다 개발 현장에 가까운 프로덕트 업데이트도 짚고 넘어갑시다.

우선 Cursor.

DJ 렌:

Cursor는 이번에, iOS 앱과 remote agents를 동시에 발표했습니다.

중요한 것은, always-on 클라우드 에이전트를 실행할 수 있다는 점, 그리고 자신의 PC에서 돌아가는 에이전트를 iPhone으로 원격 조작할 수 있다는 점이에요.

게다가, Live Activities나 스마트폰 상에서의 diff review에도 대응합니다.

DJ 미오:

이건 단순한 모바일 대응이 아니라,

“전화기로 클라우드 에이전트를 돌리는 것”이 이제 미래의 개념이 아니라 operational (운영 가능한 수준)이 되었다는 거지.

DJ 렌:

맞아요.

외출 중에도 알림을 보고, 차이점(diff)을 확인하고, 필요하다면 지시를 내릴 수 있어요.

AI 개발 경험이 PC 앞에 앉아 있을 때만 가능한 것이 아니게 되고 있습니다.

DJ 미오:

다음은 Claude on Azure Foundry GA (General Availability).

DJ 렌:

Azure, Claude, Claude Developers의 발표로서,

Claude Opus 4.8과 Haiku 4.5가 Microsoft Foundry 상에서 일반 제공(GA)되었습니다.

특징은 Azure identity, 과금, 거버넌스 제어, prompt caching, thinking support를 갖추고 있다는 점입니다.

즉, 대기업이 요구하는 통제된 환경에서 Claude를 사용할 수 있다는 것이 핵심 가치입니다.

DJ 미오:

기업 도입에서는 모델 성능만큼이나,

인증·감사·청구 통합·통제가 중요하니까.

DJ 렌:

그리고 개인적으로 흥미로운 것은 Rampart예요.

이것은 14.7MB 크기의 브라우저 측 PII (개인정보) 마스킹 모델로, 데이터가 클라이언트 단말기를 떠나기 전에 개인정보를 가릴 수 있습니다.

DJ 미오:

이거, 화려하진 않지만 굉장히 중요해.

규제 환경에서 AI를 사용하려면 거대한 채팅 UI보다 오히려 이런 작은 로컬 전처리 모델이 더 효과적일 때가 있거든.

DJ 렌:

맞아요.

AI의 실용화는 최첨단 모델만으로 진행되는 것이 아니라, 전처리·비식별화·경계 보호와 같은 눈에 띄지 않는 부품들을 통해 진행되는 경우가 많습니다.

DJ 미오:

여기서부터는 Reddit 요약이야.

먼저 /r/LocalLlama과 /r/localLLM 소식이야.

DJ 렌:

첫 번째는, GLM-5.2 753B를 완전 로컬로 구동했다는 이야기입니다.

구성이 상당히 독특한데,

M5 Max 2대를 각각 128GB의 유니파이드 메모리(Unified Memory)로 구성하고, Thunderbolt 5 케이블 하나를 통해 연결한 뒤,

llama.cpp RPC를 사용하여 가중치를 분산 배치했습니다.

양자화는 Unsloth dynamic IQ1_S를 사용했습니다. 명목상으로는 약 1.6bit이지만, 실제로는 일부 고정밀 레이어가 혼재되어 약 2.1bit 상당이며, 디스크 상의 크기는 202GB입니다.

DJ 미오:

게다가 SSD 페이징 없이 모든 가중치 상주, 16k context, q8 KV cache를 적용해 생성 속도는 약 16 tok/s가 나왔어.

753B 모델을 Mac 2대로, 그것도 Thunderbolt를 통해 돌리면서 이 정도 속도가 나온 건 커뮤니티에서도 상당히 놀라운 일이었지.

DJ 렌:

다만 논쟁도 있었습니다.

"영상을 보면 더 빨라 보이는데, 정말 16 tok/s인가요?"라는 목소리나,

"스루풋(throughput)은 대단하지만, 초저비트 양자화된 753B가 4bit인 70B와 같은 더 작은 고정밀 모델과 비교했을 때 복잡한 추론에서 어느 쪽이 더 강력할까?"라는 본질적인 의문도 제기되었습니다.

DJ 미오:

게다가 다른 사용자는 M3 Ultra Studio 256GB + M3 Max MacBook Pro 128GB 환경에서의 GLM-5.2-UD-IQ4_XS 벤치마크 결과도 공유했었지.

문맥 길이에 따라 13.03 tok/s, 8.64 tok/s, 6.21 tok/s와 같은 수치들이 보고되었습니다.

DJ 렌:

그리고 그 사용자는 TTFT(Time To First Token)에 cache prefill을 포함했다고 명시했습니다.

이런 디테일이 중요한 게, 긴 문맥 생성 비교에서는 무엇을 TTFT에 포함하느냐에 따라 결과가 달라지기 때문입니다.

DJ 미오:

또 구현 측면에서는,

"multi-Mac 연결은 llama.cpp의 표준 RPC로 가능한 건가요? 아니면 독자적인 드라이버를 사용한 건가요?"라는 질문도 나왔어.

즉, 다들 단순히 "빠르다!"라고만 하는 게 아니라, 어디까지 재현 가능한지를 신경 쓰고 있는 거지.

DJ 미오:

또 다른 뜨거운 화제는,

GLM-5.2 Q1_S와 Qwen 3.6 27B Q8의 비교야.

DJ 렌:

이것은 상당히 "취미가(hobbyist)에 의한 실전 비교"라는 느낌이 드는 게시물이었습니다.

Dual RTX 3090 환경에서, GLM-5.2 Q1_S는

약 75k 토큰, 6→3 t/s 정도로, 원샷(one-shot)으로 상당히 세련된 Three.js 아레나 게임을 만들어냈다.

반면, Qwen 3.6 27B Q8은

1회 실행 + 수정 3회, 약 42k 토큰, 단 속도는 약 60 t/s.

작가의 평가로는 완성도 면에서 GLM 측이 승리했다.

DJ 미오:

LLM-as-judge에서도, Opus 4.8과 GPT-5.5가 모두 GLM Q1_S를 코드 품질과 세련도 면에서 높게 평가했었지.

다만, OpenRouter를 경유한 GLM FP 버전은 11k 토큰 정도로 끝난 대신 조작 계통의 버그가 있었다.

DJ 렌:

댓글란에는 상당히 건전한 반론이 있었는데,

504B의 REAP GGUF Q2_K_XL 211GB 버전이 더 강력한 것 아닌가, OpenRouter 이용 비용은 얼마인가-
Qwen3.6-27B-UD-Q5_K_XL.gguf + MTP라면, 2 프롬프트, 약 11k 토큰, 110~130 tok/s로 유사한 플레이 가능한 데모가 나왔다

라는 반증도 있었습니다.

DJ 미오:

즉 논점은, "Q3 미만의 초저양자화(ultra-low quantization)는 정말 '뇌사(brain-dead)' 상태인가?"라는 질문에 대해,

게시자는 "길게 생각하게 만드는 전제라면, 거대 모델의 Q1_S가 소형 고정밀 모델을 넘어서는 경우가 있다"라고 주장했지만,

댓글 측은 "양자화 품질이나 실험 조건에 따라 결론이 상당히 흔들린다"라고 답하는 느낌이네.

DJ 렌:

맞습니다.

게다가, 211GB의 양자화된 GLM이 128GB RAM을 탑재한 Strix Halo에서 정말로 올라가는가라는,

실제 운용 메모리에 관한 이야기도 나왔습니다.

모델 크기뿐만 아니라, **KV 캐시(KV cache)나 실행 시 오버헤드(runtime overhead)**까지 포함하면 어렵다는 현실이 있죠.

DJ 미오:

다음은, llama.cpp의 모델·커널 대응 업데이트.

우선 DFlash support merged.

DJ 렌:

이것은, 확산형 텍스트 생성(diffusion-style text generation) 스타일의 공식 지원이 llama.cpp에 포함되었다는 의미로 중요합니다.

다만 댓글에서는, 멀티모달(multimodal), 특히 비전(vision)은 아직 미대응이라고 지적되었습니다.

DJ 미오:

그러니까 이미지 대응 모델을 쓰고 싶은 사람에게는 지금 당장 모든 혜택이 있는 것은 아니라는 거네.

DJ 렌:

그렇습니다.

또한, Qwen3.6-27B를 RTX 5090에서 사용하는 케이스에서는,

현재의 드래프트 모델 계열 워크플로우라면 thinking(사고 과정)을 꺼야 할지도 모르고,

vision이나 병렬 추론(parallel inference)을 잃을지도 모른다는 식의 실무적인 트레이드오프(trade-off)도 화제가 되었습니다.

DJ 미오:

로드맵 측면에서는 DFlash는 어디까지나 일부이고,

앞으로는 DDTree나 JetSpec, 그리고 별도 아키텍처로서 DSpark, Gemma Diffusion, NVIDIA NemoDiffusion, Orthrus, 경우에 따라서는 LLaDA 계열까지 시야에 들어온다는 거지.

DJ 렌:

또한 이미 MTP를 테스트하던 사용자로부터는,

"Qwen3.6이나 Gemma4에서 MTP가 작동하고 있는데, 이번 DFlash 머지(merge)로 더 빨라지는가?"

라는 실용적인 관심도 있었습니다.

DJ 미오:

또 하나는, DeepSeek V4의 llama.cpp 대응 PR이 머지되었다는 이야기.

DJ 렌:

이로써 사용자는 fork에 의존하지 않고 upstream의 llama.cpp를 git pull 하여 빌드하고, 호환 GGUF를 구동할 수 있게 됩니다.

다만 다음에 나올 문제는, 역시 어떤 GGUF가 upstream에서 돌아가고, 어떤 것이 아직 fork에 의존적인가라는 호환성 문제겠죠.

DJ 미오:

그 부분에 대한 관심이 상당히 강했던 것 같네.

그리고 Unsloth가 제대로 된(proper) GGUF 파일을 내주지 않겠느냐는 목소리도 있었어.

DJ 렌:

네.

그리고 성능 보고에 대해서는,

"앞으로 tokens/s 자랑이 많이 나오겠지만,

GPU/CPU, 양자화 (Quantization), 컨텍스트 길이 (Context Length), backend, batch size, 메모리 구성 등의 재현 조건을 적어주지 않으면 노이즈가 많을 것이다"라는 매우 타당한 우려도 나오고 있었습니다.

DJ 미오:

여기서부터는 기술적인 내용이긴 하지만, 더 넓은 AI 계열 서브레딧(subreddit)의 화제입니다.

먼저 agentic coding tooling and safety.

DJ 렌:

처음은 Graphify입니다.

이것은 리포지토리 (Repository), 문서, PDF, SQL schema, Obsidian vault, transcript를 지식 그래프 (Knowledge Graph)로 만들어 Claude로 질의하는 OSS 계열 도구로,

4월 5일 출시 이후 약 2.5개월 만에 GitHub 73k stars, 220만 downloads, 그리고 YC S26 채택을 주장하고 있습니다.

DJ 미오:

게다가, 원본 파일을 그대로 읽게 하는 것보다 쿼리당 토큰 사용량이 약 71배 적다고 하며,

신기능인 graphify reflect는 유용한 답변이나 막다른 답변을 LESSONS.md에 기록하여 **지속적인 세션 메모리 (Session Memory)**로 만듭니다.

DJ 렌:

지향하는 방향은 "self-learning company brain", 즉 기업의 자기 학습형 지식 기반입니다.

다만 댓글창은 상당히 회의적이었습니다.

DJ 미오:

구체적으로는,

Insights

Midnight AI Groove 26-06-29

요약

핵심 포인트

댓글

Mitsubishi의 5월 글로벌 차량 생산량 13% 감소

나의 AI 코드 언어는 이제 WebAssembly까지 완전히 정직합니다

챗봇을 넘어: Microsoft Azure에서 복리 효과를 내는 AI 자산 설계하기

Mitsubishi의 5월 글로벌 차량 생산량 13% 감소

나의 AI 코드 언어는 이제 WebAssembly까지 완전히 정직합니다

챗봇을 넘어: Microsoft Azure에서 복리 효과를 내는 AI 자산 설계하기