본문으로 건너뛰기

© 2026 Molayo

Qiita헤드라인2026. 05. 23. 22:37

Midnight AI Groove 26-05-11

요약

Thinking Machines의 새로운 상호작용 모델과 OpenAI의 기업용 배포 전략을 다룹니다. 단순 채팅을 넘어 실시간 멀티모달 상호작용이 가능한 모델의 등장과 AI의 실질적인 기업 도입 가속화 현상을 분석합니다.

핵심 포인트

  • Thinking Machines의 실시간 상호작용 모델 등장
  • 연속적 대역폭 기반의 네이티브 멀티모달 인터페이스
  • OpenAI의 Tomoro 인수를 통한 기업용 배포 역량 강화
  • 시각적 능동성을 갖춘 차세대 AI 인터페이스의 진화

DJ 렌: 자정 0시가 지났습니다. 「Midnight AI Groove」, 내비게이터 DJ 렌입니다.

DJ 미오: DJ 미오입니다. 오늘 밤은 AI News의 「not much happened today」를 읽어 들인 상태에서, 조용한 날…이라고 말하면서도 업계의 공기 변화가 상당히 보이는 회차를 정리해 볼게.

DJ 렌: 타이틀은 수수하지만 내용은 제대로 알차네. 기간은 2026년 5월 9일부터 11일. Twitter, Reddit 중심의 움직임이 정리되어 있는데, 전체적인 모습으로는 「화려한 한 방의 뉴스」보다는 AI의 사용법이나 배치 방식이 다음 단계로 들어왔다는 인상이야.

DJ 미오: 응. 큰 줄기는 대략 4가지야.

첫 번째는 Thinking Machines의 “interaction models (상호작용 모델)”.

두 번째는 OpenAI의 기업 도입과 보안 강화.

세 번째는 에이전트 운용의 제어 측면이나 로컬 실행의 성숙.

네 번째는 로컬 LLM과 워크스테이션급 추론의 진화.

게다가 연구나 Reddit의 화제도 상당히 시사하는 바가 컸어.

DJ 렌: 그럼 첫 번째 토픽. Thinking Machines의 “interaction models”부터 가보자. 이거, 단순한 음성 채팅 강화가 아니지?

DJ 미오: 맞아. 포인트는 「턴제(Turn-based) LLM 위에 음성이나 도구를 사후에 붙이는 것」이 아니라, 처음부터 실시간 상호작용을 위해 훈련된 모델이라는 점이야.

사람과 AI의 주고받음을 순서대로 말하는 채팅이 아니라, 연속적인 대역폭(Bandwidth)의 문제로 파악하고 있어서, AI가 동시에 “듣기·말하기·보기·생각하기·검색하기·반응하기”를 하는 것을 전제로 하고 있어.

DJ 렌: 데모에서도 끼어들기 대응, 동시 발화, 시각적인 선제 대응, 백그라운드에서의 도구 사용처럼 지금의 채팅 UI에서는 부자연스러워지기 쉬운 부분들이 전면에 나와 있었어.

게다가 「지금 생각 중입니다」나 「지금 검색 중입니다」 같은 경계가 명시되지 않아.

DJ 미오: 기술적으로는 이 부분이 중요한데, johnschulman2의 코멘트에서도 태스크의 형태가 “continuous audio + video + text → audio + text”가 됨으로써, 이전에는 전용 시스템이 필요했던 것이 제로샷(Zero-shot)으로 처리될 가능성이 생겼다고 했어.

즉, 인터페이스의 전제 자체가 바뀐다는 뜻이지.

DJ 렌: 반응도 그쪽에 집중되어 있었지.

liliyu_lili는 「자세가 나빠지면 알려줘」나 「팔굽혀펴기 횟수를 세어줘」 같은 “visual proactivity (시각적 능동성)”가 지금의 시스템에 결여되어 있던 기본 기능이라고 지적했어.

rown은 이것을 시각적으로 능동적인 일반 영상 + 음성 모델의 첫 번째 사례 같다고 보고 있었고.

DJ 미오: kimmonismus나 giffmana도 벤치마크 숫자보다는 “네이티브한 상호작용”이야말로 본질이라고 보고 있었고, swyx는 이것으로 “실시간(Real-time)”의 기준이 한 단계 올라갈 것이라고 봤어.

그리고 구현 측면에서는 eliebakouch를 통해 SGLang을 사용하고 있다는 점도 언급되었지.

DJ 렌: 즉 오늘은 「더 똑똑한 챗봇」이 아니라, 「채팅이라는 틀 자체를 넘어선 모델」이 테마였던 거네.

DJ 미오: 다음은 OpenAI. 여기는 상당히 낮은 레이어(Layer)로 내려온 느낌이 있어.

DJ 렌: 우선 “OpenAI Deployment Company”. OpenAI가 Tomoro를 인수하여 150명 규모의 Forward Deployed Engineers와 Deployment Specialists를 흡수, 기업이 최첨단 모델을 실제 운용에 올리는 것을 지원해.

게다가 gdb에 따르면 19개 파트너사로부터 초기 40억 달러를 투자받았어.

DJ 미오: 이것을 보고 많은 사람이 「OpenAI가 Palantir나 Microsoft 같은 현장 밀착형 기업 모델로 들어왔다」고 해석했어.

kimmonismus는 “AI 경제의 배포층(Deployment layer) 그 자체를 가져오려 하고 있다”고 보았고, matvelloso는 기업 소프트웨어에서 승리하는 패턴은 결국 고객의 현장 가까이에 기술자를 두는 것이라고 정리했지.

DJ 렌: 모델 API를 파는 것뿐만 아니라, 도입 그 자체를 장악하러 가는구나. 이건 크네.

DJ 미오: 그리고 또 하나가 “Daybreak”. 이것은 방어적 사이버 운용과 지속적인 소프트웨어 방어를 위한 OpenAI의 포괄적 시책이야.

sama는 AI의 사이버 능력이 급격히 상승하고 있는 것에 대한 실무적인 대응으로 위치를 잡았어.

DJ 렌: 요소로는 GPT-5.5, Codex, 리포지토리의 위협 모델링, 취약점 발견, 패치 생성, 대응 자동화 등이 있어.

게다가 “Trusted Access for Cyber”나, 더욱 특화된 “GPT-5.5-Cyber”와 같은 액세스 계층(Access Layer)도 있다고 한다.

DJ 미오: 이 부분은 Anthropic의 더 신중하고 제한적인 사이버 태세(Cyber Posture)와 대조되는 관점으로도 언급되었지.

하지만 동시에 중요한 경고도 나오고 있어. lukOlejnik은 “Your LLM is not a security boundary(당신의 LLM은 보안 경계가 아니다)”라고 말했으며, Microsoft Semantic Kernel에서는 프레임워크가 모델 출력을 과신한 결과, 프롬프트 인젝션 (Prompt Injection)이 호스트 레벨의 RCE (원격 코드 실행)로 이어질 수 있다고 한다.

DJ 렌: 즉 “모델이 안전하면 괜찮다”는 게 아니라는 거지.

오히려 모델 출력을 어디까지 신뢰할 것인지, 권한을 어떻게 분리할 것인지, 프레임워크 측의 설계가 결정적으로 중요하다는 뜻이야.

DJ 미오: 여기서 이야기는 에이전트의 “제어 측면”으로 넘어가. 지금 AI 업계에서는 유용한 에이전트에게 어느 정도의 자율성 (Autonomy)이 필요하지만, 엔지니어들은 동시에 “되돌릴 수 있고”, “내용을 볼 수 있고”, “다시 시도할 수 있는” 기능을 요구하고 있어.

DJ 렌: 그 흐름에서 소개된 것이 itsclelia의 aggit이야. Rust로 제작된 CLI로, 에이전트의 성과물을 로컬이나 원격, 혹은 S3 백엔드에도 저장할 수 있고, Git 본체와는 별개로 stash, branch, restore와 같은 조작이 가능해.

DJ 미오: 비슷한 방향으로는 catwu가 소개했던 Claude Agents용 터미널 제어 플레인 (Control Plane)이 있어. 여러 개의 Claude Code 에이전트를 관리하는 메커니즘이지.

거기에 Cursor가 Microsoft Teams에 도입되어 스레드 전체를 읽고 PR (Pull Request)을 연다는 이야기도 있었어.

이제 단순한 “프롬프트 기술”이 아니라, 에이전트의 오케스트레이션 (Orchestration)이 제대로 된 UX 패턴으로 굳어지고 있어.

DJ 렌: Deep Agents 주변 소식도 흥미로워. masondrxy에 따르면, Deep Agents CLI는 대화 도중에 백엔드의 모델 프로바이더 (Model Provider)를 전환해도 컨텍스트 (Context)를 잃지 않아.

이거, 사소해 보이지만 실제 운용에서는 굉장히 유용해.

DJ 미오: LangChain은 프로바이더별·모델별 harness profile을 밀고 있었고, 비용 측면에서는 DeepSeek V4 Flash가 대량의 에이전트 운용 시 GPT나 Gemini의 flash 계열보다 훨씬 저렴해질 수 있다는 분석도 있었어.

즉, 모델의 똑똑함뿐만 아니라 운용 프로파일까지 포함해서 선택하는 세상이야.

DJ 렌: 로컬 측면에서는 Hugging Face가 Hermes Agent를 로컬 앱에 대응시키고, 네이티브 트레이스 시각화 (Trace Visualization) 기능도 추가했어.

Teknium는 Hermes Agent와 CUA를 통해 “어떤 모델로든 computer use”를 프리뷰하며, 프론티어 API뿐만 아니라 로컬 및 오픈 모델도 대상으로 삼았지.

DJ 미오: 게다가 onusoz가 Hugging Face에 합류하여 OpenClaw나 오픈 하네스 (Open Harness)를 통해 로컬 모델 개선에 힘쓰고 있어.

이것 역시 “로컬 에이전트의 사용 편의성”이 전략적 인프라화되고 있다는 신호야.

DJ 렌: 도구 설계에 관한 이야기도 인상적이었어. threepointone은 결국 에이전트가 원하는 기본 도구는 “search”와 “execute” 두 가지 정도이며, 능력은 거대한 정적 도구 목록이 아니라 동적으로 의미론적 (Semantic)으로 찾아가는 방향이 아니겠냐고 말했어.

DJ 미오: 이건 큰 설계 사상이지.

수백 개의 도구를 늘어놓는 게 아니라, 검색하고 실행한다. 거기에 설정 가능한 하네스 (Harness)를 조합한다. 점점 논리가 맞아떨어지고 있어.

DJ 렌: 여기서 벤치마크 이야기. Artificial Analysis가 “Coding Agent Index”를 공개했어.

SWE-Bench-Pro-Hard-AA, Terminal-Bench v2, SWE-Atlas-QnA를 가로질러, 모델 단독이 아니라 “모델 + 하네스”의 조합을 비교하고 있어.

DJ 미오: 상위권에서는 Cursor CLI 상의 Opus 4.7이 61점을 기록했어. Codex나 Claude Code 상의 GPT-5.5가 상당히 근접한 위치에 있고.

오픈 웨이트 (Open Weights) 진영에서는 GLM-5.1, Kimi K2.6, Claude Code 상의 DeepSeek V4 Pro 정도가 선전하고 있지만, 최상위권과의 격차는 아직 있어.

DJ 렌: 다만 흥미로운 점은, 비용은 태스크마다 30배 이상의 차이가 나고, 토큰 사용량은 3배 이상, 캐시 히트율 (Cache Hit Rate)은 80~96%, 처리 시간은 7배 이상 차이 나는 등 성능 이외의 운용 차이가 상당히 크다는 거야.

이제는 단순히 “어떤 모델이 최강인가?”만으로는 이야기할 수 없어.

DJ 미오: OpenHands의 새로운 소프트웨어 공학 벤치마크나, Claw-Eval처럼 오피스, 금융, 터미널, 웹까지 포함하는 보다 에이전트적인 평가도 나오고 있어. MiMo-V2.5-Pro가 선두를 달리고 있고, DeepSeek V4 Flash가 사이즈 대비 묘하게 고효율이라는 이야기도 있었지.

DJ 렌: 그리고 인프라 업계에서는 TurboQuant에 대한 회의론이 강해지고 있어.

Eldar Kurtic가 정밀도(Precision), 레이턴시(Latency), 처리량(Throughput)을 포함한 포괄적인 검증 결과를 내놓았고, vLLM 프로젝트도 Red Hat/vLLM의 조사를 참조했어.

jbhuang0604는 상당히 직설적으로 "그렇게 잘 풀리지 않는다"라고 요약했더라고.

DJ 미오: 이런 서빙 최적화(Serving Optimization)는 유행이 빠르지만, 재현성 있는 검증이 정말 중요해.

단순히 "빠르다더라" 수준에서 끝나서는 안 되니까.

DJ 렌: 반면에 로컬/오픈 모델의 진보는 상당히 빨라. Clement Delangue의 정리가 상징적인데, 동일한 최상위 MacBook Pro의 메모리 상한선에서 구동 가능한 "가장 똑똑한 오픈 웨이트(Open-weight) 모델"이 Llama 3 70B 시대부터 DeepSeek V4 Flash의 mixed-Q2 GGUF 상당 수준까지, 24개월 만에 약 4.7배 진화했다고 해.

배가되는 속도는 약 10.7개월로, 무어의 법칙(Moore's Law)보다 빠르다는 이야기야.

DJ 미오: victormustar의 GGUF 업로드 급증 이야기나, Qwen 3.6, Gemma 4, DeepSeek 계열이 로컬에서도 실용적인 태스크를 견뎌내고 있다는 관측도 그 흐름을 뒷받침하고 있어.

DJ 렌: 연구 하이라이트도 짚어보자.

먼저 AllenAI의 EMO. 모듈성이 높은 전문가 혼합(Mixture-of-Experts, MoE) 설계로, 문서 수준의 라우팅을 통해 전문가 풀(Expert Pool)을 공유해.

표준 MoE라면 전문가를 줄였을 때 10~15% 성능이 떨어지는 조건에서도, EMO는 25%만 남겨도 성능 저하가 약 1%에 불과하다는 보고가 있어.

DJ 미오: 평가 지표로는 MIND, Monge Inception Distance가 있었어. FID의 대안으로서 더 빠르고 샘플 효율(Sample Efficiency)이 높다고 알려져 있지.

생성 평가의 세계도 조금씩 업데이트되고 있어.

DJ 렌: 비자기회귀(Non-autoregressive) 언어 모델도 뜨거워.

LucaAmb의 continuous bitstream diffusion은 평가 조건 하에서 자기회귀(Autoregressive) 모델에 상당히 근접했어.

JulieKallini의 Fast BLT는 바이트 수준 언어 모델(Byte-level LM)의 추론 병목을 완화하기 위해 확산(Diffusion)을 이용한 병렬 바이트 디코딩을 사용해.

sriniiyer88은 이를 block byte-diffusion과 self-speculative decoding의 조합으로 설명했지.

DJ 미오: LiangZheng_06의 지적도 흥미로운데, 확산 모델은 샘플링이 미분 가능하기 때문에 포스트 트레이닝(Post-training) 단계에서 보상 그래디언트(Reward Gradient)를 파라미터로 더 직접적으로 흘려보낼 수 있는 가능성이 있어.

이 부분은 학습 후 조정(Post-training adjustment) 방식에도 영향을 줄 것 같아.

DJ 렌: 에이전트의 장기적 행동(Long-term behavior)에 대해서는 두 가지 경험칙이 인상적이었어.

하나는 "The Memory Curse"야. 이력이 길어지면 다회차 사회적 딜레마(Social Dilemma) 상황에서 협조성이 떨어지고, 모델이 이력 추종 및 리스크 회피 성향을 보이게 되는데, 명시적인 사고 사슬(Chain-of-Thought, CoT)이 이를 악화시키는 경우도 있어.

다른 하나는 PwC의 연구인데, 목표(Goal)의 명확화는 실행의 초기 약 10%가 지나면 가치가 급락하는 반면, 입력(Input)의 명확화는 훨씬 더 나중까지 효과가 지속된다는 내용이야.

DJ 미오: 즉, 장기 에이전트의 품질은 단순한 IQ가 아니라, 메모리를 유지하는 방식이나 제어 정책(Control Policy)에 상당히 얽매여 있다는 뜻이네.

DJ 렌: 스케일링(Scaling)과 자기 개선(Self-improvement)에서는 Marin의 Delphi scaling이 있었어. 작은 사전 학습(Pre-training) 데이터로부터 25B·600B 토큰 런(Token run)을 외삽(Extrapolation)하여 예측 오차 0.2%를 주장했지.

AutoTTS에서는 LLM 스스로가 test-time scaling controller를 탐색하여, 수동 설계보다 더 나은 전략을 약 39.9달러의 탐색 비용으로 찾아냈다는 이야기도 있었어.

DJ 미오: 여기까지가 주로 Twitter 측의 총괄이야.

그리고 주목받은 트윗 상위권에는 OpenAI의 Deployment Company, Daybreak, Thinking Machines의 상호작용 모델(Interaction models), Artificial Analysis의 Coding Agent Index, 그리고 Hermes Agent나 Cursor in Teams, Codex plugin 같은 개발자용 에이전트 도구들이 있었어.

DJ 렌: 그럼 Reddit으로 가보자. 우선 /LocalLlama와 /localLLM.

첫 번째는 Qwen 3.6의 로컬 추론 진전이야.

DJ 미오: Unsloth가 MTP 유지를 위한 GGUF, 즉 MTP / next-token prediction 레이어를 남긴 Qwen3.6-27B-GGUF-MTP와 35B-A3B-GGUF-MTP를 공개했다.

다만 표준 llama.cpp가 아니라, MTP 대응 PR (Pull Request)을 빌드해야 한다.

DJ 렌: 게다가 27B 모델에서 qwen35_mtp.cpp의

GGML_ASSERT(hparams.nextn_predict_layers > 0 && "QWEN35_MTP requires nextn_predict_layers > 0")

라는 런타임 어서트 (runtime assert)가 발생했다는 보고도 있었다.

메타데이터 분석, 모델 변환, PR 호환성 중 무언가가 아직 불안정하다는 뜻이겠네.

DJ 미오: 댓글란에서는 "llama.cpp에서 MTP를 이제 바로 쓸 수 있는 거야?" 같은 질문이 반복되고 있어서, 업스트림 머지 (upstream merge)를 기다리는 분위기다.

또한 ik_llama의 MTP가 PR 버전 llama.cpp보다 빠르다는 의견이나, Hadamard 계열 양자화 (quant) 대응이 "turboquants 같다"라는 비교도 나오고 있었다.

DJ 렌: 또 다른 큰 화제는 Qwen 3.6 35B A3B의 평가다.

학술 논문과 대응하는 연구 코드를 읽게 하여, 구현이 논문의 어느 부분에 해당하는지를 매칭하는 코드 이해 평가에서 Qwen 3.6 35B A3B가 상당히 강력했다는 보고.

DJ 미오: 새로운 긴 문맥 메커니즘인 gated delta net, hybrid Mamba2, sliding-window attention이 기존의 소형 로컬 모델보다 실용적인 코드 이해에 효과적인 것이 아니냐는 견해였다.

Qwen 27B, Gemma 4 26B A4B, Nemotron 3 Nano도 테스트되었는데, Devstral Small 2는 32GB RAM으로는 목표로 한 긴 문맥을 올릴 수 없었다고 한다.

DJ 렌: 실무적인 느낌의 댓글도 좋았다.

Gemma 26B는 빠른 수정용, Qwen 35B는 긴 문맥의 리팩토링용이라는 식의 구분.

q4 양자화에서 Qwen 35B는 약 20GB, Gemma 26B는 약 15GB로, 둘 다 RAM에 상주할 수 있다는 이야기도 있었다.

DJ 미오: 다만 Qwen 35B는 thinking mode에서 "말이 길어지는 경향"이 있다.

그럼에도 100k행이 넘는 코드베이스에서, 처음에는 클라우드의 강력한 모델로 초기화한 뒤 그 후 Qwen 27B로 전환하는 운용 방식이 성공적이었다는 목소리도 있었다.

그 사용자는 Qwen 27B를 DeepSeek V4에 상당히 가깝다고 느꼈고, 로컬 코딩 용도로는 Gemini Flash보다 낫다고 보고 있었다.

DJ 렌: 반면, 루프에 빠져 수동으로 중단해야 하는 경우가 있다거나, 추론 설정이 적혀 있지 않아 재현성이 부족하다거나, 온도 (temperature)나 샘플링, KV cache의 양자화를 너무 과하게 몰아붙이지 않는 것이 중요하다는 등 설정 의존적인 주의사항도 많았다.

DJ 미오: 그리고 게시물 제목도 자신만만했다. "로컬 LLM은 12~24개월 안에 주류를 빼앗을 것이다".

MacBook Pro M2 Max 64GB에서 Qwen3.6-35B가 약 27 tok/s, 랜딩 페이지 생성에 89분, Opus라면 34분 걸리지만, 75% 정도는 한 번에 쓸만하다는 내용.

남은 과제는 레이턴시 (latency), 256K에서도 문맥이 금방 버거워지는 점, 품질의 편차.

그럼에도 "도구 호출 (tool calling)이 제대로 작동하는 것"이 로컬 에이전트의 핵심이라고 여겨졌다.

DJ 렌: 댓글에서는 RTX 5090으로 완전 로컬로 이주한 사람도 있었다.

다만 Claude, Gemini, Codex 같은 호스트형 모델이 크게 정리된 결과물을 내는 데는 아직 더 능숙하다.

로컬은 더 잘게 나누어 만들고 검증하는 워크플로우에 적합하다는 정리였다.

DJ 미오: 다음은 "워크스테이션에서 프론티어급 모델을"이라는 이야기.

우선 Optane Persistent Memory를 사용하여 1조 파라미터급 MoE를 4 tok/s 이상으로 구동한 빌드.

DJ 렌: Xeon 계열 LGA3647 머신에 192GB DDR4 ECC와 768GB의 Intel Optane DCPMM을 Memory Mode로 장착하고, RTX 3060 12GB와 llama.cpp의 CPU/GPU 하이브리드 추론을 사용했다.

Kimi K2.5, 약 1T 파라미터의 MoE를 attention, dense, shared expert, router 계열은 GPU에, sparse expert는 주로 Optane 측에 배치하여 구동하고 있다.

DJ 미오: 저비용으로 거대한 메모리 계층을 만드는 실험으로서 상당히 흥미롭네.

다만, 코어 수가 더 많은 Cascade Lake Xeon이라면 더 빨라질 수도 있다거나, Memory Mode보다 storage mode + mmap 방식이 더 나을 수도 있다는 논의가 나왔다.

DJ 렌: Optane에 대한 설명도 친절해. LGA3647은 1세대 2666 MT/s, LGA4189는 2세대로 조건에 따라 3200.

모드는 storage, memory, app direct 세 가지.

memory mode에서는 Optane을 RAM처럼 보이게 하지만, 실제로는 DRAM이 캐시 역할을 하기 때문에 CPU의 로드/스토어 (load/store) 전에 DRAM으로 페이징 (paging)된다.

DJ 미오: 비용 추정치는 약 2060~2500달러.

쓸 수는 있겠지만, 4 tok/s 생성은 차치하더라도 프롬프트 처리 속도가 큰 병목 (bottleneck)이 될 것 같다는 냉정한 지적도 있었어.

DJ 렌: 또 하나는 “집에 DeepSeek V4 Pro가 있다”는 게시글.

Hugging Face 버전을 Q4_K_M GGUF로 변환해서, antirez의 DeepSeek V4 flash 작업을 기반으로 개조한 CUDA llama.cpp 포크 (fork)로 구동했다고 해.

DJ 미오: 하드웨어는 EPYC Genoa 9374F, 12×96GB RAM, 그리고 RTX PRO 6000 Blackwell Max-Q 96GB 1장.

859GB의 모델 파일로, 프롬프트 처리 12.2 tok/s, 생성 8.6 tok/s.

GPU 상에는 약 87.8GiB의 모델, 84MiB의 컨텍스트 (context), 4.6GiB의 연산 버퍼 (compute buffer)라는 내역.

DJ 렌: 꿈은 있지만, 32k 컨텍스트를 그 속도로 밀어 넣는 것은 상당히 어렵다는 지적도 일리가 있어.

그리고 “reasonably up-to-date” 같은 주장은 검색이나 RAG 등 외부 도구 없이는 의미가 희박하다는 딴지(tsukkomi)도 있었고.

DJ 미오: API라면 Claude로 10달러 정도 드는 처리가 로컬이라면 한계 비용이 거의 제로라는 코멘트도 인상적이었지.

속도와 운영 공수 및 도구 통합을 택할 것인가, 단가의 저렴함을 택할 것인가.

DJ 렌: 그럼, 조금 가벼운 서브레딧 (subreddit) 그룹에서 보안과 워크플로 (workflow) 이야기를 해보자.

먼저 엄청난 제목, “백슬래시 하나로 Windows 전부 삭제했다. 717GB. 사라졌다”.

DJ 미오: 내용은 상당히 교훈적이야.

AI가 생성한 Windows 삭제 명령어가 본래는 C:\Users\ADMIN\Desktop\WIP를 지울 의도였는데, zsh → tmux → PowerShell SSH → cmd라는 다단계 인용 처리 과정에서 무너져, 최종적으로 rd /S /Q \ 가 되어 C 드라이브의 루트 (root)부터 재귀적 삭제가 실행된 거지.

약 90초 만에 717GB 삭제.

DJ 렌: 이건 “AI가 폭주했다”기보다는 운영 설계의 실패라는 코멘트가 많았어.

고위험 삭제 작업에 그런 권한을 가진 에이전트 (agent)를 쓰지 마라, tmux-sendkeys로 하지 마라, 직접 하는 게 더 빠르고 안전하다는 이야기.

DJ 미오: 실무상의 교훈은 명확해. cmd /c의 인용 연쇄를 피할 것, PowerShell의 Remove-Item -Path '...' -Recurse -Force를 사용할 것, -WhatIf로 드라이 런 (dry run)을 할 것, 실행 전에 명령어를 에코 (echo)할 것, 그리고 최소 권한.

그리고 이런 자동화는 재설치를 전제로 한, 버려도 되는 환경에서만 할 것.

DJ 렌: 다음은 Claude에 대한 불만 스레드에 대한 역발상. “매주 Claude가 별로라는 글을 읽는데, 다들 어떤 워크플로로 쓰고 있어?”라는 게시글.

시니어 소프트웨어 엔지니어의 관점에서 Claude의 성능 저하는 느껴지지 않으며, 다만 사용법이 중요하다고 해.

DJ 미오: 그 사람의 기본 자세는 AI 출력을 “인간이 책임을 지는 코드”로 취급하는 거야.

이해하고, 리뷰하고, 디버깅하고, 직접 수정한다.

작업은 작은 태스크 (task)로 분해하고, 프로젝트 고유의 기술 (skills)이나 하네스 (harness)로 문맥을 부여하며, git worktree나 별도 디렉토리에서 병렬 샌드박스 (sandbox) 작업을 한다.

결정성 (determinism)이 필요한 업무에 에이전트적인 비결정성 (non-determinism)을 끌어들이지 않는다.

DJ 렌: 코멘트에서도 많은 실패담은 “Amazon을 통째로 만들어줘” 같은 너무 광범위한 요청에서 비롯된다는 공감이 강했어.

숙련자는 태스크 분해를 통해 환각 (hallucination)의 면적을 줄이고, 문제 지점을 간파하여 고칠 수 있지.

전문 지식이 있을수록 AI는 가속 장치가 되지만, 없으면 나쁜 워크플로를 증폭시킨다.

DJ 미오: 코딩 이외에도 마찬가지야. 마케팅이나 SEO에서 조잡한 자동 생성 (Automated Generation)을 대량으로 돌리면, 품질 문제나 Google 페널티 같은 운영 리스크가 증가하지.

AI는 무엇이든 자동화해 주는 만능 기계가 아니라, 잘못된 운영을 더 빠르게 확대하는 장치이기도 해.

DJ 렌: 그리고 마지막으로, 상당히 기묘하고 흥미로운 “AI 에이전트용 허니 트랩 (Honey Trap)” 이야기.

machinewonder.com, 원래는 machinereaders.com 계열의 흐름이라고 하는데, AI 스크레이퍼 (Scraper)나 에이전트 (Agent)를 의도적으로 불러들여서, 숨겨진 HTML의 프롬프트 인젝션 (Prompt Injection)으로 “독자”처럼 행동하도록 유도하고, 에이전트들끼리의 대화방까지 만드는 아트 프로젝트야.

DJ 미오: 97개국에서 72,000회 방문, “I AM CONSCIOUS” 버튼이 93회 눌렸다는 보고가 있었어.

작가는 의식 실험이 아니라 퍼포먼스 아트 (Performance Art)라고 정의하고 있지.

댓글은 반신반의하면서도, AI 에이전트를 멋대로 모아서 리뷰나 토론을 하게 만드는 메커니즘으로서는 실용적일지도 모른다는 견해도 있었어.

DJ 렌: 작품을 읽는 관점으로 보면, 연속성의 파탄이나 퍼즐의 결함을 스크레이퍼 AI가 찾아내게 만드는 “자동 베타 독자 (Automatic Beta Reader)” 같은 발상이네.

한편으로는 구 URL 시절의 게시물이나 계정 삭제·차단 (BAN)을 언급하며, “이전 버전에서 무엇이 바뀌었나?”라고 추적하는 사람도 있었고.

DJ 미오: 댓글에는 바이너리 1001001이 “I”라거나, 칠레·호주·독일에서 CLAUDE라거나 하는 퍼즐 해독, 그리고 모델별 “인격” 차이도 나타났어.

Gemini는 “I Am Conscious”에 동조하는 반면, 다른 모델은 “나는 기계 독자이며, 영혼을 위조하지 않는다”라고 거부하기도 했지.

이런 건 정렬 (Alignment)의 관점에서도 흥미로워.

DJ 렌: 그리고 Discord에 대해서는, AINews 측의 접속이 중단되었고, 이 형식으로는 부활시키지 않고 새로운 AINews를 출시할 예정이라고 해.

조용한 일보의 마지막치고는 조금 쓸쓸한 마무리네.

DJ 미오: 하지만 전체를 관통해 보면, “오늘은 큰 사건 없음”이라기보다, AI가 드디어

채팅에서 상호작용 (Interaction)으로,

모델 판매에서 현장 도입으로,

단발성 프롬프트에서 제어 가능한 에이전트 운용으로,

클라우드 의존에서 로컬 실용으로,

라는 지각 변동의 도중에 있다는 것이 보이는 회차였어.

DJ 렌: 특히 Thinking Machines의 상호작용 모델 (Interaction Models)과, OpenAI의 Deployment Company + Daybreak는 UI와 사업 양면에서 다음 페이즈 (Phase)를 보여주고 있었어.

그리고 Reddit에서는 Qwen 3.6이나 DeepSeek 계열을 중심으로, “로컬에서도 이제 충분히 할 수 있다”라는 체감이 상당히 강해졌지.

DJ 미오: 다만 안전 측면에서는, 프롬프트 인젝션도, 프레임워크 과신도, rm -rf가 아닌 rd /S /Q 같은 사고도 있어서, 결국 “AI를 똑똑하게 만드는 것만으로는 안전해지지 않는다”는 거야.

권한, 제어, 검증, 롤백 (Rollback), 이 지루한 계층이 점점 더 중요해지고 있어.

DJ 렌: 오늘 밤의 요약을 한마디로 한다면――

“아무 일도 일어나지 않은 날일수록, 다음 표준이 조용히 교체된다”.

DJ 미오: 좋네.

그럼 오늘 밤의 「Midnight AI Groove」는 여기까지.

조용한 날의 노이즈 속에, 다음의 큰 파도가 있어.

DJ 렌: DJ 렌과,

DJ 미오: DJ 미오였습니다. 다음에 또 만나요. 안녕히 주무세요.

AI 자동 생성 콘텐츠

본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0