Midnight AI Groove 26-06-08

DJ 미오: 안녕하세요, 「Midnight AI Groove」 시간입니다. 오늘 밤은 제목 그대로 “그렇게 큰 사건은 많지 않았던 날”이지만, 사실 현장감 있는 중요 토픽이 꽤 가득했었죠.

DJ 렌: 맞아요. 화려한 초대형 발표는 적었을지 몰라도, 평가 방법론, 에이전트(Agent) 운용, 로컬 추론(Local Inference), 보안, 프로덕트 경쟁까지, AI 업계의 “다음 당연함”이 보이는 회차였어요. 그럼 순서대로 가보죠.

DJ 미오: 우선 X(구 Twitter) 주변에서 가장 컸던 것은 Cognition의 FrontierCode예요. 이거, 기존의 「유닛 테스트(Unit Test)가 통과하는가」가 아니라, 정말로 머지(Merge)할 수 있는 코드인가를 평가하는 벤치마크(Benchmark)거든요.

DJ 렌: 그 점이 중요해요. 오픈 소스(Open Source) 메인테이너(Maintainer)들과 함께 태스크(Task)를 만들고 있는데, 각 태스크에 40시간 이상을 쏟고 있어요. 게다가 평가 축이 회귀(Regression)를 일으키지 않는가, 코드가 깔끔한가, 스코프(Scope)가 적절한가, 테스트가 올바른가, 유지보수가 용이한가와 같이 실무 그 자체예요.

DJ 미오: 결과도 인상적이었어요. 최량 모델인 Opus 4.8조차도, 최난관 서브셋(Subset)에서는 13% 전후. SWE-Bench 계열에서는 50% 이상이 드물지 않은 분위기였기에, 「코딩은 이제 해결되었다」라는 식의 시각에 상당히 찬물을 끼얹은 느낌이었죠.

DJ 렌: 네. 요컨대, “테스트를 통과하는 것”과 “머지할 수 있는 것”은 전혀 다르다는 뜻이에요. 현실의 소프트웨어 개발에 가까운 평가로 시프트(Shift)하고 있다는 것을 잘 알 수 있죠.

DJ 미오: 그 흐름과 이어지는 것이 오늘의 또 다른 대주제, 에이전트 제어는 원샷(One-shot)보다 루프(Loop)나 반복 구조로라는 이야기예요.

DJ 렌: 다만, 단순히 「루프를 돌리면 된다」는 것이 아니에요. 실무자들의 논의에서는 명확한 목표, 검증 기준, 반복의 구조를 부여하는 것이 중요하다고 여겨졌어요. Claude Code의 회고, OpenAI Codex의 outcome-first prompting, LangChain OSS의 rubric 등 다양한 방향에서 같은 이야기가 나오고 있어요.

DJ 미오: 하지만 반론도 강했죠. dzhng는 「루프가 아니라 상태 머신(State Machine)을 설계하라」 쪽에 가까웠고, Omar Sar0나 Greg Neubig는 쉽게 검증할 수 없는 영역에서는 인간의 체크포인트(Checkpoint)가 필수적이라고 지적했어요. Hamel Husain은 “loop”라는 단어 자체를 뮤트(Mute)하고 싶다고 농담할 정도였고요.

DJ 렌: 즉 지금의 결론은, 반복은 유효하지만, 천진난만한 자율화 찬양은 위험하다는 거예요. 검증 가능성이 높은 작업에서는 효과적이지만, 모호한 영역에서는 사람이 요점에서 멈춰 세울 필요가 있어요.

DJ 미오: 프로덕트 측면에서도 그 방향에 따른 개선이 눈에 띄었어요. 검증 용이성과 **오케스트레이션(Orchestration)**이 키워드였죠.

DJ 렌: 맞아요. ClaudeDevs는 MCP 커넥터 개발자를 위해 채택 상황, 지연(Latency), 에러 등을 볼 수 있는 관측성(Observability) 대시보드를 추가했어요. MagicPath는 외부 에이전트의 워크플로우(Workflow)를 위한 Builder 플랜과 멀티플레이어 방식의 캔버스 편집을 투입했죠. LangSmith Sandboxes나 Modal 이야기까지 포함해서, 에이전트에게는 격리되고, 관측 가능하며, 장시간 구동할 수 있는 환경이 필요하다는 인프라(Infrastructure) 조류가 보여요.

DJ 미오: 그리고 실운용 패턴도 조금씩 굳어지는 느낌이에요. 측정 가능한 성과, 제한된 자율성, 스레드 위생(Thread Hygiene). 너무 긴 Codex 스레드는 성능을 떨어뜨린다는 경고가 있는 한편, 단일 스레드에서 문맥(Context)을 쌓아 올려 성공했다는 보고도 있어요.

DJ 렌: 이 차이 자체가 중요해요. 지금의 에이전트 성능은 베이스 모델(Base Model)의 능력뿐만 아니라, 하네스(Harness)나 워크플로우 설계에 굉장히 좌우된다는 뜻이니까요.

DJ 미오: 이어서 모델과 로컬 추론. 우선 Moonshot의 Kimi가 상당히 공격적이었어요. Kimi Code는 오픈 소스 코딩 에이전트를 대폭 업데이트하여, 원라인 CLI 설치, 동영상 드래그 앤 드롭을 코딩 문맥에 사용하는 기능, ACP 대응, 플러그인, IDE 통합을 추가했어요.

DJ 렌: 게다가 Kimi Work라는 데스크톱 에이전트 제품도 내놓았죠. 최대 300개의 로컬 서브 에이전트, 확장 기능을 통한 브라우저 이용, 금융용 도구 연결, 영구 메모리까지 갖추고 있어요. 상당히 “에이전트 OS”적인 방향으로 가고 있네요.

DJ 미오: Google은 Gemma 주변에서 효율적인 로컬 전개를 강력하게 밀고 있었죠.

DJ 렌: 새로운 QAT Gemma 4 체크포인트는 성능을 유지하면서 메모리 사용량을 약 4분의 1로 줄일 수 있다는 이야기인데, Gemma 4 E2B가 모바일용 양자화 (Quantization) 형식으로 약 1GB 내외에 수렴한다는 보고도 있었다. 상당히 크다.

DJ 미오: 거기에 더해, Gemma 4 MTP가 llama.cpp에 병합되었다. QAT 체크포인트와 결합하면 디코딩 (Decoding) 속도가 빨라진다. 게다가 llama.cpp 자체가 동영상 입력에도 대응하면서, 로컬 멀티모달 (Multimodal) 용도가 확장되었다.

DJ 렌: 오픈 웨이트 (Open weights) 경쟁도 뜨겁다. Artificial Analysis에서는 MiniMax-M3가 Intelligence Index에서 55를 기록했으며, 가중치 (Weights)가 공개되면 최강급의 오픈 웨이트가 될 것이라는 관측이 나오고 있다. 네이티브 멀티모달, 100만 토큰 컨텍스트, GPQA 및 MMMU-Pro에서 강력한 수치를 보여주는 한편, 할루시네이션 (Hallucination)에 민감한 평가에서는 기권하는 경향도 있다고 한다. 또한, Apple 하드웨어에 최적화된 양자화 Qwen3.5도 화제였다.

DJ 미오: 나아가 서빙 스택 (Serving stack) 또한 더 이상 텍스트 LLM 전용이 아니다. vLLM-Omni 0.22.0은 NVIDIA Cosmos 3의 월드 모델 (World model), 로봇용 API, Qwen3-TTS나 VoxCPM2 같은 TTS, 이미지·동영상의 고속 서빙, 폭넓은 양자화 및 하드웨어 지원까지 추가되었다.

DJ 렌: 즉, “추론 기반 = 텍스트 LLM 기반”이 아니라, “범용 멀티모달 기반”으로 확장 중이라는 뜻이네.

DJ 미오: 평가 이야기로 돌아가면, Agent Arena도 흥미로웠다. Arena가 내놓은 새로운 리더보드(Leaderboard)는 100만 건 이상의 실제 세계 세션으로부터 에이전트를 평가한다.

DJ 렌: 게다가 투표 방식이 아니라, **인과 트레이스 (Causal trace)**를 통해 오케스트레이터 (Orchestrator)나 하네스 (Harness)의 효과를 추정하려고 하고 있다. 지표는 **성공 확인, 찬성 대 불만, 조종 가능성 (Steerability), bash 복구 (Recovery), 도구 환각 (Tool hallucination)**의 5가지다. 방법론이 완벽한지는 아직 알 수 없지만, “야생의 사용 로그”를 벤치마크화하려는 시도로서는 상당히 본격적이다.

DJ 미오: 출력 영역의 확장이라는 측면에서는, Hugging Face와 Mecado의 CADGenBench도 주목할 만하다. 도면이나 STEP 변경을 통해 공학 수준의 3D CAD 부품을 생성 및 편집하게 하는 벤치마크로, 기하, 위상 (Topology), 인터페이스 호환성, CAD 타당성을 평가한다.

DJ 렌: 이 부분이 중요하다. 평가가 텍스트나 코드에 그치지 않고, 물리성이나 기하학적 정확성을 가진 구조화된 결과물로 넓어지고 있다.

DJ 미오: 그리고 Ofir Press의 논점인, **“좋은 벤치마크는 훈련 파이프라인이 된다”**는 이야기도 인상적이었다. 현실 데이터에 기반하여 확장 가능한 벤치마크는 측정뿐만 아니라 데이터 생성에도 사용될 수 있다. FrontierCode나 Agent Arena는 바로 스코어보드에서 피드백 루프로 이행하고 있는 느낌이다.

DJ 렌: 소비자용 AI 플랫폼 경쟁도 정리해 두자. Google은 패키징과 Search, 개발자 측면 모두에서 움직였다. NotebookLM은 Ultra 구독자를 대상으로 더 에이전트적인 채팅, 강력한 추론, 출력 형식의 확장을 제공한다. 또한 Google AI Plus의 가격을 월 7.99달러에서 4.99달러로 인하하고, 스토리지는 400GB로 두 배 늘렸다.

DJ 미오: 검색 측면도 업그레이드되어, 멀티모달 검색을 포함한 대규모 Search 업데이트와 함께 AI Mode에서 Gemini 3.5 Flash가 새로운 기본값(Default)이 되었다.

DJ 렌: 반면 Apple의 WWDC 주변 AI는 최첨단 성능으로 승부하기보다는 통합력에 집중하고 있다. 재구축된 Siri AI가 화면상의 내용을 이해하고, 앱 조작을 실행하며, 개인적 문맥을 사용하고, 음성 대화도 개선하는 방향이다. 다만, EU에서의 제공 제한이나 대응 하드웨어 제약에 대한 우려도 나오고 있었다.

DJ 미오: 기술적으로 흥미로웠던 점은 Apple의 온디바이스 모델이 **200억 파라미터의 쿼리 라우팅형 아키텍처 (Query routing architecture)**를 사용하여, NAND에서 RAM으로 쿼리마다 전문가 (Expert)를 로드한다는 점이다. 상당히 비표준적이지만, 단말기 제약에 최적화된 설계로서 매우 흥미롭다.

DJ 렌: 연구·기반 분야에서는 Anthropic의 사이언스 블로그도 인상적이었다. AI가 코딩(Coding)에서는 급속도로 발전했는데, 생물학에서는 그만큼 발전하지 못한 이유는 지능 부족보다 “인프라 불일치(Infrastructure Mismatch)” 때문이라는 주장이다.

DJ 미오: 즉, 생물학의 데이터베이스나 도구들이 에이전트(Agent) 이용을 전제로 설계되지 않았다는 뜻이지. 그래서 과학 분야에서 AI를 활용하려면 모델 능력뿐만 아니라, 에이전트 호환형 과학 인프라가 필요하다는 거야.

DJ 렌: 이와 관련 있는 것이 OpenEnv의 컨소시엄 이관이다. Hugging Face, Meta-PyTorch, Reflection, Unsloth, Modal, Prime Intellect, NVIDIA 등이 참여하고 있으며, 목적은 모델, 하네스(Harness), 환경, 트레이너(Trainer) 사이의 공유 프로토콜 계층을 만드는 것이다. 프론티어 랩(Frontier Lab)은 자체적으로 밀결합(Tight Coupling)할 수 있지만, 오픈 진영에는 표준화가 필요하다는 논리다.

DJ 미오: 그리고 **지속 학습 (Continual Learning)**이 실무 시스템 문제로 다시 떠오르고 있어. Hivemind는 Claude Code나 Codex, Cursor, Hermes 같은 에이전트의 트레이스(Trace)를 재사용 가능한 스킬로 변환하여, 구성을 넘나들며 성능을 개선한다고 주장한다. Nando de Freitas도 토큰 열(Token sequence)이 아닌 상호작용의 결과로부터 배우는 연구 프로그램을 긴 글로 설명했지.

DJ 렌: 최적화 알고리즘 논쟁도 은근히 뜨거웠다. Muon이 Shampoo와 본질적으로 다른가 하는 논의부터, Arohan의 “Shampoo보다 더 나을지도 모르는 옵티마이저(Optimizer)” 시사, Keller Jordan의 Shampoo 및 Spectral Descent 공개 벤치마크까지 이어졌다. 드라마틱해 보이지만, 그 뿌리에는 최적화기(Optimizer) 레벨의 개선이 여전히 프론티어로서 재평가되고 있다는 흐름이 있다.

DJ 미오: 참여도가 높았던 게시물도 짚고 넘어가자. 기술적으로 관련 있는 상위 게시물은, Signal이 영국의 온디바이스 스캔 요구 및 연령 확인 연동 콘텐츠 검사에 반대한 건이다. AI 자체라기보다, 클라이언트 측 추론과 플랫폼 신뢰에 직결되는 프라이버시·보안 문제라고 볼 수 있어.

DJ 렌: 기업 측면에서는 Sam Altman이 OpenAI의 현행 방침을 공유했고, 직후에 OpenAI가 비밀리에 S-1을 제출했다. 엔지니어 관점에서는, OpenAI와 Anthropic 모두 IPO 선택지를 남겨둔 채 용량과 제품 폭을 확대하고 있다고 읽힌다.

DJ 미오: 또한 순수한 프로덕트나 평가 화제로는, NotebookLM, Kimi Code, Kimi Work, 그리고 FrontierCode가 그날의 주인공이었다.

DJ 렌: 그럼 Reddit, 특히 /r/LocalLlama와 /r/localLLM의 요점으로 가보자. 우선 가장 뜨거웠던 것은 아까 언급한 llama.cpp의 Gemma 4 MTP 대응이다.

DJ 미오: PR(Pull Request)을 통해 멀티 토큰 예측 (Multi-token prediction, MTP) 지원이 추가되어, --spec-type draft-mtp와 같이 드래프터(Drifter) 모델을 사용하는 방식이다. 사용자 보고에 따르면, RTX 4070 Super · 12GB VRAM 환경에서 Gemma 4 12B가 140 tok/s를 기록했다. QAT GGUF와 MTP 드래프터를 병용하여 상당히 빠르다.

DJ 렌: 벤치마크에서도 MTP가 없을 때 6.2~~6.4 tok/s였던 구성이, MTP 적용 시 **15.7~~31.2 tok/s**까지 늘어나는 사례가 있어 대략 3~5배 가속화되었다. 다만, 수락률(Acceptance rate)은 태스크에 따라 의존적이라 번역이나 요약은 높지만 창작 문장은 낮다. 즉, 결정적이고 제약이 강한 태스크일수록 MTP가 잘 듣는다.

DJ 미오: 31B나 26B-4B 모델에서는 Gemma 팀의 AIME-26 성능 재현도 보고된 반면, E4B/E2B는 미지원이며 멀티 GPU에서는 추가 설정이 필요할 수 있다는 주의사항도 있었다.

DJ 렌: 다음은 “GPU 없이도 gemma-4-26B-A4B가 돌아간다”는 보고다. Intel i5-8500과 32GB RAM, Linux, KoboldCpp 환경에서 CPU만으로 약 7 tok/s를 기록했다.

DJ 미오: 핵심은 이 모델이 총 파라미터는 26B이지만, 토큰당 활성 파라미터(Active Parameter)가 약 4B라는 점이다. 따라서 양자화된 가중치가 RAM에 들어온다면 CPU 추론도 현실적이다. 고가의 GPU 없이도 로컬 LLM이 성립 가능하다는 상징적인 사례였다.

DJ 렌: 물론, 8GB VRAM의 저렴한 중고 GPU만으로도 크게 빨라질 수 있다는 지적이 있었어. 체감상으로는 5배 정도 개선될 가능성이 있다고 하더라고.

DJ 미오: 또 하나 컸던 건 Xiaomi MiMo의 처리량 (throughput) 주장이야. 1T 파라미터 MoE (Mixture of Experts) 모델에서, 표준적인 8 GPU 서버 1대만으로 1000+ tokens/s, 최대 1200 tps를 달성했다는 이야기지.

DJ 렌: 기술적인 내용을 살펴보면, TileRT의 persistent/fused/pipelined kernels와 DFlash speculative decoding (추측적 디코딩), 그리고 모델 측면에서는 **선택적 MXFP4 QAT (Quantization-Aware Training)**를 사용했어. 즉, 전체를 FP4로 만드는 게 아니라, MoE의 expert 층만 FP4로 양자화해서 추론이나 코드 성능은 최대한 유지하면서 메모리 대역폭 (memory bandwidth) 부하를 낮추는 방식이야.

DJ 미오: 하지만 커뮤니티의 반응은 당연히 신중했어. **“표준적인 8 GPU 서버”가 구체적으로 무엇인가?**라는 의문이 많았지. 데이터 센터용 GPU인지 소비자용 GPU인지에 따라 평가가 완전히 달라지니까.

DJ 렌: 그럼에도 불구하고, 거대하지만 희소한(sparse) MoE는 경제성을 높일 수 있다는 방향성을 보여주는 증거로서 주목받았어. 소비자용 하드웨어가 부족하고 가격이 치솟는 반면, 데이터 센터가 GPU를 독점하고 있다는 “Token Winter (토큰 윈터)”론까지 나오고 있는 상황에서 말이야.

DJ 미오: Gemma 관련해서는, Gemma 4 chat template의 preserve_thinking 기능도 화제였어. 공식 템플릿이 해당 기능을 지원하기 시작했다는 이야기인데, 턴(turn)을 넘나들며 사고 과정이나 내부 구조를 유지하는 동작이 에이전트적 코딩에 효과적이지 않을까 하는 기대가 있어.

DJ 렌: 다만 그 부분은 확인이 필요해. 댓글에서는 아직 머지(merge) 전의 PR (Pull Request)이 아닌가, 혹은 공식 아티팩트(artifact)에 아직 반영되지 않은 것 아니냐는 주의 사항도 있었거든. 그래서 “사용 가능하다”고 전제하기보다는 템플릿 버전을 반드시 확인해야 해.

DJ 미オ: 여기서부터는 약간 비기술적인 서브레디트 (subreddit) 요약이야. 우선 Claude Code의 보안, 개인정보 보호, 토큰 제한에 관한 이야기가 상당히 뜨거웠어.

DJ 렌: 처음에는 꽤 심각한 내용이었지. **npm 공급망 공격 (supply chain attack)**이 진행 중인데, 악의적인 설치/빌드 훅 (build hook)이 인증 정보를 탈취하고, 나아가 ~/.claude/settings.json의 Claude Code SessionStart hooks나 .vscode/tasks.json의 folderOpen tasks를 이용해 지속성을 확보한다는 경고가 퍼졌어.

DJ 미오: 대상으로는 @redhat-cloud-services 계열, @vapi-ai/server-sdk, ai-sdk-ollama 등이 언급됐어. 대응책으로는 우선 의존성 트리(dependency tree)와 lockfile을 확인하고, 그다음 Claude나 VS Code의 지속성 설정을 점검한 뒤, **네트워크를 차단하고 정리한 다음 신뢰할 수 있는 머신에서 비밀 정보를 로테이션(rotation)**하는 순서가 권장되었어.

DJ 렌: 추가로 GitHub 보안 로그, Actions 워크플로 (workflow), 자체 러너 (runner), OIDC 신뢰 관계, npm publish 이력에 대한 감사도 권장되었지. 완화책으로는 npm install --ignore-scripts, 무결성 해시를 포함한 의존성 고정, 최소 권한의 CI/CD 토큰 등이 있었어. 상당히 실무적인 인시던트 리스폰스 (incident response)였지.

DJ 미오: 다음은 Anthropic의 개인정보 보호정책 변경에 대한 반발이야. 2026-07-08 발효 예정인 개정안에서, 법 집행 기관에 대한 정보 공개 조건이 외부의 강제적인 법적 절차뿐만 아니라, Anthropic의 “성실한 신념 (good faith belief)”에 따라 필요하다고 판단되는 경우에도 공개할 수 있다는 주장이 나왔어.

DJ 렌: 그 결과, 롤플레잉, 창작, 위협을 포함한 이야기 문맥, 정신 건강에 대한 토로 같은 내용들이 안전 분류기 (safety classifier)의 오판으로 인해 당국에 에스컬레이션 (escalation)될 위험이 있다는 우려가 나왔지. 다만 해당 게시물에 직접적인 변경 원문 링크가 제시되지 않았기 때문에 신중하게 살펴볼 필요가 있어.

DJ 미오: 댓글창에서는 상당히 강한 불신이 나타나고 있고, OpenAI나 Mistral과 비교했을 때 나쁜 방향으로 가고 있다는 목소리도 있었어. 반면 반대 의견으로는, **바이오 리스크 (biolisk)**와 같은 고위험 악용 사례의 경우에는 일정 수준의 감시 및 신고 권한이 정당화될 수 있다는 시각도 존재해.

DJ 렌: 그러니까, **프라이버시(Privacy)와 안전 의무 사이의 트레이드오프 (Trade-off)**가 표면화되고 있는 이야기네.

DJ 미오: 그리고 Claude의 새로운 사용 제한이 이상하다는 이야기. 스크린샷에서는, Opus 4.8, 100만 컨텍스트 (Context), UltraCode 세션이 약 13분 만에 **110만 토큰 (Token)**을 소비하여, 5시간 제한의 79%를 사용했다는 내용이야.

DJ 렌: 하지만 댓글창은 꽤 냉정해서, 그건 당연한 것 아니냐는 반응이 많았어. 최고가 모델에 거대 컨텍스트, 게다가 Ultra Code 같은 병렬 에이전트적 모드를 동시에 사용하면, 단 1번의 요청이라도 실질적으로는 **여러 번의 고비용 호출 (High-cost calls)**처럼 작동하니까.

DJ 미오: 요컨대, Ultra Code는 “Max thinking의 상위 호환”이 아니라, 좁고 가치 높은 태스크 (Task)용이라는 거지. 평소처럼 사용하면 제한을 다 써버리게 돼. 설정은 태스크에 맞춰서 선택하라는 이야기로 귀결되더라고.

DJ 렌: 크리에이티브 분야에서는 우선 Mythos 5에 대한 루머가 있어. Anthropic의 테스트 모델이 SVG나 코드베이스 기반의 비주얼 생성, 프론트엔드/UI, 게임, 웹사이트, 코드 생성 음악까지 상당히 강력하다는 거야.

DJ 미오: 게다가 출력이 몇 분씩 걸리기도 하는데, 내부적으로 학습 코드 최적화가 숙련된 인간의 4배 대비 최대 52배라는 이야기까지 나왔어. 하지만 커뮤니티의 반응은 전반적으로 **회의적 (Skeptical)**이야. 특히 공개 버전은 테스트 버전보다 상당히 너프 (Nerf)될 것이라는 견해가 강했어.

DJ 렌: 실무적인 코멘트로는, 만약 정말로 고비용이라면 단일한 거대 범용 모델보다는 **소형의 저렴한 도메인 특화 모델 (Domain-specific model)**을 내놓아야 하는 것 아니냐는 논의도 있었지.

DJ 미오: 또 하나는 Ideogram 4.0. 로컬의 ComfyUI에서 INT8 버전을 사용하고, 1440×1024 정도의 해상도에서 LoRA 없이도 캐릭터나 IP 이해도가 매우 강력하다는 보고야.

DJ 렌: 게다가 워크플로우가 구체적이라서, Kijai의 Prompt Builder 노드나 SilverOxide의 워크플로우, 그리고 JSON으로 high_level_description, style_description, compositional_deconstruction 같은 구조화된 프롬프트를 사용해. 바운딩 박스 (Bounding box)로 Mario나 Sonic의 위치, 표정, 제스처, 배경 문맥까지 지정하는 방식이지.

DJ 미오: 인페인팅 (Inpainting) 품질도 높다고 해서, 필요하면 ComfyUI-Inpaint-CropAndStitch로 얼굴이나 세부 사항만 수정하는 실무 플로우도 공유되었어. 즉, 낮은 해상도로 먼저 만든 뒤 문제 부분만 부분 수정으로 완성하는 거지.

DJ 렌: LoRA 없이 그 정도까지 캐릭터 재현이 가능하다는 점에 놀라는 목소리가 많아서, 오픈 모델로서 상당히 존재감을 드러내고 있었어.

DJ 미오: 마지막으로 Discord 관련 소식. AINews는 Discord 접속이 차단되었다고 발표하며, 앞으로는 지금과 같은 형태로는 부활시키지 않고 새로운 AINews를 선보일 예정이라고 해.

DJ 렌: 전체를 정리하자면, “조용한 날”이라고는 하지만 내용은 알찼어. 특히 큰 건 4가지 정도네.

DJ 미오: 첫 번째, 코딩 평가가 “테스트 합격”에서 “머지 (Merge) 가능성” 단계로 진화하고 있다는 것.

DJ 렌: 두 번째, 에이전트 (Agent)는 루프를 돌린다고 해서 이기는 게 아니라, 검증·상태 관리·인간의 개입 지점 설계가 핵심이라는 것.

DJ 미오: 세 번째, 로컬 추론 (Local inference)은 QAT, MTP, MoE, 양자화 (Quantization)를 통해 급속도로 실용화되고 있으며, Gemma나 llama.cpp 주변이 특히 활발하다는 것.

DJ 렌: 그리고 네 번째, 실제 사용 로그나 구조화된 결과물을 대상으로 한 새로운 평가 기반이 늘어나고 있으며, 벤치마크가 그대로 훈련 및 제품 개선의 루프로 이어지기 시작했다는 것.

DJ 미오: 화려한 뉴스가 적은 날일수록 지각 변동이 더 잘 보이는 걸지도 모르겠네.

DJ 렌: 그런 의미에서 오늘 밤의 「Midnight AI Groove」는 여기까지. 조용한 날일수록 현장의 노이즈가 아닌 본류가 들리는 법이지.

DJ 미오: 그럼 다음번, 심야의 AI 그루브에서 만나요. 안녕히 주무세요.

Midnight AI Groove 26-06-08

요약

핵심 포인트

댓글