
Midnight AI Groove 26-05-13
요약
에이전트 기술이 단순 채팅 UI를 넘어 상태 관리와 오케스트레이션 중심의 플랫폼 단계로 진화하고 있습니다. Cline, LangChain, Notion, Cursor 등 주요 도구들이 에이전트 인프라를 강화하며 생태계를 확장하고 있습니다.
핵심 포인트
- 에이전트 UX의 중심이 채팅에서 상태 관리 및 오케스트레이션으로 이동
- LangChain의 SmithDB를 통한 고성능 관측 데이터베이스 도입
- Notion의 External Agents API를 통한 컨텍스트 계층화 전략
- Cursor의 클라우드 에이전트 강화를 통한 격리된 개발 환경 제공
- 상태 머신 기반의 하네스를 활용한 장기 지속형 에이전트 작업 수행
DJ 렌:
안녕, “Midnight AI Groove”. 오늘 밤은 AINews의 2026년 5월 13일 호, 「not much happened today」를 읽고, 그 “조용한 날”의 내용을 제대로 파헤쳐 볼 거야.
DJ 미오:
제목은 「별로 일어난 일이 없다」이지만, 실제로 보면 전혀 그렇지 않더라고. 12개의 서브레딧(Subreddit), 544개의 Twitter 계정을 체크했고, Discord는 이날을 기점으로 취득 정지되었어. 게다가 AINews 자체는 현재 Latent Space의 일부가 되어 있어서 과거 호 검색도 가능하다고 해.
DJ 렌:
그럼 우선 큰 흐름부터 보자. 이번 코어 테마는 에이전트 기반의 성숙 (Agent Infrastructure Maturity), 학습 효율 및 아키텍처 연구 (Learning Efficiency and Architecture Research), 기업용 AI의 가격 경쟁과 락인 (Enterprise AI Price Competition and Lock-in), 그리고 자율 과학·사이버·로보틱스 (Autonomous Science, Cyber, and Robotics). 이 4가지 기둥이었어.
DJ 미오:
먼저 에이전트 기반. Cline, LangChain, Notion, Cursor가 나란히 “단순한 채팅 UI (Chat UI)”에서 “본격적인 에이전트 플랫폼 (Agent Platform)”으로 깊게 발을 들여놓은 점이 인상적이었어.
DJ 렌:
Cline은 새로 만든 Cline SDK를 오픈 소스화하고 CLI도 쇄신했어. TUI, 에이전트 팀, 정기 실행 작업(Scheduled Jobs), 커넥터(Connector)를 추가하여, 커스텀 코딩 에이전트를 만들기 위한 재사용 가능한 기반으로 내세웠지.
DJ 미오:
LangChain은 Interrupt를 통해 꽤나 한꺼번에 내놓았어. LangSmith Engine, SmithDB, Sandboxes, Managed Deep Agents, LLM Gateway, Context Hub, Deep Agents 0.6. 그중에서도 기술적으로 눈길을 끄는 것이 SmithDB야. 이것은 중첩된 장시간 트레이스(Trace)나 거대한 페이로드(Payload)를 다루기 위한 전용 관측 DB로, 주요 워크로드에서 12~15배 빠른 액세스를 자랑해. Apache DataFusion과 Vortex 위에 구축되었다고 해.
DJ 렌:
Notion도 흥미로워. External Agents API를 통해 Claude, Codex, Cursor, Decagon, Warp, Devin 같은 외부 에이전트가 Notion 안에서 직접 동작할 수 있어. 즉, Notion을 또 다른 사이로(Silo) 만드는 것이 아니라, “공유 가능하고 리뷰 가능한 컨텍스트 계층 (Context Layer)”으로 만들려 하고 있어.
DJ 미오:
Cursor는 클라우드 에이전트를 강화해서, 클론된 리포지토리(Repository), 의존성(Dependency), 버전 히스토리(Version History), 롤백(Rollback), 제한적인 외부 통신, 격리된 시크릿(Secret)까지 포함하는 완전한 구성의 개발 환경을 제공해. 단순한 보완 도구에서 안전한 실행 환경을 갖춘 작업 대리인으로 옮겨가는 느낌이야.
DJ 렌:
여기서 중요한 점은, 에이전트 UX의 중심이 “채팅 (Chat)”이 아니게 되었다는 거야. 장시간 지속되는 상태 관리(State Management), 스트리밍(Streaming), 오케스트레이션(Orchestration)이 주역이 되었어.
DJ 미오:
Duet Agent가 그 상징이지. 몇 주, 몇 달씩 이어지는 작업을 다루기 위한 **상태 머신 기반의 하네스 (State Machine-based Harness)**를 제안하고 있어. 부모 에이전트와 자식 에이전트의 협업, 그리고 메모리로 상태를 유지하는 방향이야. 요약 압축으로 대충 넘기는 게 아니라, 제대로 상태를 지속시키는 거지.
DJ 렌:
LangChain의 OSS 업데이트도 typed projection의 스트리밍, 체크포인트 저장, 코드 인터프리터(Code Interpreter), 하네스의 프로파일, 모델별 튜닝 같은 형태로, 단순한 토큰의 흐름 이상의 “풍부한 이벤트 스트림 (Event Stream)”을 전제로 하고 있어.
DJ 미오:
Tabracadabra는 오토컴플리트(Autocomplete)에서 “어떤 텍스트 박스든 문맥을 읽는 어시스턴트”로 진화했어. VS Code도 Agents 창이나 여러 프로젝트의 태스크 리뷰 개선 사항을 내놓았지. 전체적인 메시지는 명확해. 프로덕션 에이전트에는 내구적인 실행, 중간 상태의 가시화, 툴 네이티브 UI가 필요하다는 거야.
DJ 렌:
다음은 연구. 이번에 가장 일관성 있었던 것은 사전 학습의 효율화와 아키텍처 실험이었어.
DJ 미오:
DJ 미오:
Nous Research의 Token Superposition Training, 줄여서 TST. 사전 학습(Pre-training) 초반부에 일반적인 다음 토큰 예측(Next-token prediction) 대신 "연속된 토큰의 주머니"를 읽게 하여 예측하고, 그 이후에 표준적인 next-token prediction으로 돌아가는 방식이야. 결과적으로 동일한 FLOPs에서 실제 시간 기준 2~3배의 가속화를 보고했어. 게다가 추론(Inference) 시의 아키텍처 변경도 필요 없어. 270M에서 3B 규모의 dense 모델, 나아가 10B-A1B 규모의 MoE에서도 검증을 마쳤지.
DJ 렌:
이건 경제적 임팩트가 크네. 추론 시의 호환성을 유지하면서 학습만 빠르다는 주장이라서.
DJ 미오:
Jonas Geiping 등의 multi-stream LLM도 흥미로워. 현재의 채팅형 학습은 에이전트(Agent)를 단일 스트림에 너무 묶어두고 있다는 비판과 함께, 병렬 추론이나 도구(Tool) 활용을 더 읽기 쉽고 저지연(Low-latency)으로 만들 수 있다고 주장하고 있어. 논문과 코드가 공개되어 있어.
DJ 렌:
그리고 δ-mem. 동결된(Frozen) 풀 어텐션(Full-attention) 백본에 외장형 온라인 연상 메모리(Online associative memory)를 부착하는 설계야. 8×8 상태에서 평균 점수가 1.10배, 비 δ-mem 베이스라인 대비 1.15배 향상되었으며, 특히 메모리 중시 벤치마크에서 효과가 크다는 보고가 있었어.
DJ 미오:
포스트 트레이닝(Post-training)과 압축(Compression) 분야에서는 NVIDIA의 Star Elastic. 단 한 번의 포스트 트레이닝으로 여러 크기의 추론 모델 군을 파생할 수 있다고 주장해. 모델 군을 매번 사전 학습하는 것보다 360배 저렴하고, 기존 최첨단 압축 기술보다 7배 더 뛰어나다는 상당히 강력한 주장을 펼치고 있어.
DJ 렌:
데이터 큐레이션(Data curation) 방면에서는 Datology의 VLM 연구. Siddharth Joshi와 Pratyush Maini가 소개했는데, 핵심은 데이터 선별만으로도 멀티모달(Multimodal) 성능이 상당히 향상된다는 거야. 2B 모델로 20개의 공개 VLM 벤치마크에 대해 평균 +11.7 포인트를 기록하며 InternVL3.5-2B와 약 10포인트 차이를 벌렸고, 심지어 학습 계산량은 약 17분의 1 수준이야. 4B 모델에서도 Qwen3-VL-4B에 근접하는 프론티어(Frontier)급 성능을 응답 FLOPs 3.3분의 1로 보여주고 있어.
DJ 미오:
오픈 데이터에서는 Percy Liang이 다음 Marin 런에는 이미 18조 토큰이 섞여 있으며, 아직 사전 학습·중간 학습·SFT용 데이터를 모집 중이라고 언급했어. 토큰 뷰어(Token viewer)도 공유되었지.
DJ 렌:
평가와 데이터셋도 진전되고 있어. Kevin Li의 SWE-ZERO-12M-trajectories는 112B 토큰, 1,200만 궤적(Trajectories), 12.2만 PR, 3,000개 리포지토리, 16개 언어로 구성된 오픈 에이전트 궤적 데이터셋 중 최대 규모야. Victor Mustar는 llama.cpp 커뮤니티 평가를 비교 가능하게 만드는 단계로서 llama-eval을 소개했어.
DJ 미오:
그리고 Steve Rabinovich와 Sayash Kapoor는 에이전트 평가에서 성과 지표(Metric)만 보는 것은 불충분하다고 주장해. 강력한 에이전트일수록 벤치마크의 버그나 보상 해킹(Reward hacking)을 드러내기 때문에 로그 분석이 필요하다는 거지. 이건 상당히 본질적인 지적이야.
DJ 렌:
기업용 주제로 넘어가 보자. 여기서는 완전히 Anthropic vs OpenAI의 구도가 강해지고 있었어.
DJ 미오:
Ramp의 데이터를 Andrew Curran이 인용했는데, 4월 시점의 기업 이용 점유율에서 Anthropic이 34.4%, OpenAI가 32.3%를 기록했어. 겉보기에는 처음으로 Anthropic이 앞서나간 형태야. The Rundown도 같은 수치를 다뤘지.
DJ 렌:
다만 Anthropic은 동시에 플랜 경제성을 변경했어. ClaudeDevs에 따르면, 유료 Claude 플랜에는 Agent SDK, claude -p, GitHub Actions, 서드파티 SDK 앱에서 사용하는 프로그램 이용 목적의 월간 전용 크레딧이 포함돼. 이것이 파워 유저들에게는 "구독 보조금으로 돌리던 하네스(Harness)를 제한하는 것"으로 받아들여져서, Theo, Jeremy Howard, Matt Pocock, Omar Sanseviero 등으로부터 비판이 나왔어.
DJ 미오:
반면 반발을 완화하려는 듯, Claude Code의 주간 이용 한도를 7월 13일까지 50% 증가시켰어. 게다가 이전에 발표했던 "5시간 프레임 한도 2배" 위에 추가로 쌓아 올린 거야. 즉, 제한은 강화하면서 다른 부분에서는 완화하는 복잡한 움직임이었지.
DJ 렌:
DJ 렌:
OpenAI는 상당히 노골적으로 반격하고 있어. Sam Altman과 OpenAI Devs가, 향후 30일 이내에 전환하는 기업 고객에게 Codex를 2개월간 무료로 제공하겠다고 발표했지. 기업을 대상으로 한 전환 보조금인 셈이야.
DJ 미오:
게다가 OpenAI는 기술적인 상세 내용도 공개했는데, Windows 샌드박스 (Sandbox) 설계에 대한 해설을 내놓았어. 로컬 사용자, 방화벽 규칙, ACL, 쓰기 제한 토큰, DPAPI, 헬퍼 실행 파일을 조합하여, 로컬 파일 시스템이나 도구에 접근하는 코딩 에이전트 (Coding Agent)를 어떻게 안전하게 실행할 수 있는지 설명하고 있었지.
DJ 렌:
이번 경쟁은 이제 단순히 “어떤 모델이 가장 똑똑한가”의 문제가 아니야. 보조금, 워크플로 (Workflow) 지배, 하네스 (Harness) 호환성의 싸움이 되었다는 것이 이번 정리의 핵심이었어.
DJ 미오:
기업 도입에서 더욱 중요해지고 있는 것이 런타임 (Runtime)과 보안 보증이야. Perplexity는 VPC 수준의 격리, 단기 프록시 토큰, 외부 콘텐츠 스캔, 암호화, 자동 삭제를 포함하는 하드웨어 격리 샌드박스 구성을 설명했어. Aravind Srinivas는 이것이 Perplexity를 엔터프라이즈용 지식·조사 플랫폼으로 만드는 기반이라고 정의하고 있어.
DJ 렌:
즉, 지금의 에이전트 벤더 (Agent Vendor)들은 지능뿐만 아니라 **경계가 설정된 실행 환경 (Bounded Execution Environment)**을 팔고 있는 거야.
DJ 미오:
이어서 자율 과학, 사이버, 로보틱스 분야야. 먼저 메타 테마로서 컸던 것은 Recursive의 출범이었어. AI로 과학을 자동화하고, 안전하게 자기 개선을 하는 AI를 만드는 스타트업이지.
DJ 렌:
Richard Socher, Josh Tobin, Dominik Schmidt, Jenny Zhang, Shengran Hu 등의 발신을 보면, 개방성 (Open-endedness), AI Scientist, 연구 자동화의 맥락에서 인재들이 모이고 있다는 것을 알 수 있어. 인접한 Adaption의 AutoScientist 역시 프런티어 랩 (Frontier Lab) 외부에서 학습 연구 루프 전체를 자동화하려고 시도 중이야. Sarah Hooker는 많은 학습 실패가 계산 자원 부족보다는 연구 루프의 취약성에서 기인한다고 언급했어.
DJ 미오:
사이버 능력 평가도 상당히 가파르게 상승 중이야. 영국 AI Security Institute (AISI)는 최첨단 모델이 완수할 수 있는 사이버 과제의 “길이”가 몇 달마다 두 배씩 늘어나고 있으며, 최근 모델들은 기존 트렌드를 상회하고 있다고 보고했어.
DJ 렌:
Anthropic/Glasswing의 Logan Graham은, Claude Mythos Preview가 AISI의 엔드 투 엔드 (End-to-End) 사이버 레인지 (Cyber Range)를 모두 풀어낸 첫 번째 모델이며, Cooling Tower를 포함하여 연구소의 250만 토큰 제한 내에서 모든 과제를 통과한 유일한 모델이라고 주장하고 있어.
DJ 미오:
XBOW는 “토큰당 전례 없는 정확도”를 발견했다고 하며, 파트너 이용을 통해 몇 주 만에 고위험·중대 취약점을 수천 건 발견했다고 보고했어. 또한 독립적인 코멘트인 scaling01은 새로운 Mythos 버전이 있는 사이버 레인지를 10번 중 6번 완수했으며, 이는 프리뷰 버전의 10번 중 3번을 상회하는 수치라고 말했지.
DJ 렌:
로보틱스에서는 Figure야. Brett Adcock가 Helix-02를 사용하여 휴머노이드가 8시간 동안 완전 자율 교대 근무로 짐 분류를 수행하는 라이브 스트리밍을 진행했어. 이는 상당히 구체적인 장시간 데모였지.
DJ 미오:
상세 내용도 훌륭했어. 카메라 화소로부터 추론하고, 인간 수준인 개당 약 3초의 속도로 처리하며, 온디바이스 추론 (On-device Inference)으로 움직이고, 네트워크화된 플릿 (Fleet)으로서 협업해. 배터리 잔량이 떨어지면 자율적으로 교대하고, 필요하면 자기 진단을 통해 유지보수로 페일오버 (Failover)까지 수행해. 짧은 벤치마크 영상이 아니라, 여러 로봇이 장시간 무인으로 오케스트레이션 (Orchestration)되는 실연으로서 상당히 강력한 모습을 보여줬어.
DJ 렌:
이날의 “톱 트윗 (Top Tweet)”으로 AINews가 꼽은 것은 Claude Code의 가격 및 한도 변경, OpenAI의 Codex 기업 공세, Figure의 8시간 교대 근무, Cline SDK 공개, 그리고 Token Superposition Training이었어. 이 나열 자체가 그날의 분위기를 잘 나타내고 있지.
DJ 미오:
여기서부터는 Reddit이야. 우선 /r/LocalLlama와 /r/localLLM. 첫 번째 테마는 온디바이스 추론의 효율화야.
DJ 렌:
처음은 Cactus Compute의 Needle. Gemini의 도구 호출 (Tool Calling) 기능을 26M 파라미터 모델로 증류 (Distillation)한, 단발성 함수 및 도구 호출 전용 모델이야. 특징은 “Simple Attention Network”로, 어텐션 (Attention)과 게이팅 (Gating)만 있고 FFN/MLP는 없어. 그들의 주장에 따르면, 도구 활용의 본질은 깊은 추론이라기보다 검색, 슬롯 추출, JSON 조립이기 때문에 이 정도 구성으로도 충분하다는 거지.
DJ 미오:
사전 학습 (Pre-training)은 200B 토큰을 16개의 TPU v6e로 27시간 동안 진행했고, 사후 학습 (Post-training)은 Gemini가 합성한 20억 개의 함수 호출 데이터로 45분 동안 수행했어. 소비자용 디바이스에서 prefill 6000 tok/s, decode 1200 tok/s를 구현한다고 주장하며, 단발성 함수 호출에서는 FunctionGemma-270M, Qwen-0.6B, Granite-350M, LFM2.5-350M을 상회한다고 해. 코드와 가중치는 MIT 라이선스로 GitHub와 Hugging Face에 공개되어 있어.
DJ 렌:
댓글창에서는 이를 **경량 라우터 (Lightweight Router)**로 보는 시각이 강했어. 거대 LLM이나 도구, RAG 파이프라인에 적절한 인수를 붙여 분배하는 역할로서 유망하다는 거지. 나아가 구조화된 RAG 출력을 받아서 자연어로 변환하는 소형 후단 모델로도 확장할 수 있지 않을까 하는 이야기도 있었어.
DJ 미오:
기술적으로는 “외부 지식이 항상 도구나 RAG를 통해 들어온다면, FFN 층에서 사실적 지식을 보유할 필요가 없지 않을까”라는 시사점도 있었지. 즉, 기억은 외부, 모델은 오케스트레이션 (Orchestration)에 특화한다는 설계 패턴이야.
DJ 렌:
다만 주의할 점으로, 리포지토리에 Python의 pickle 파일이 포함되어 있어 임의 코드 실행이나 이식성 문제로 인해 보안상 좋지 않다는 지적도 있었어. 또한 증류 원본인 Gemini 자체에 도구 호출의 습성, 예를 들어 도구 특이성이나 cat을 피하고 grep_search를 사용하는 것과 같은 시스템 프롬프트상의 보정이 있기 때문에, 증류 데이터에 그 편향 (Bias)이 들어올 수 있다는 이야기도 있었지.
DJ 미오:
다음은 정말 재미있는 이야기야. Game Boy Color에서 로컬로 Transformer를 구동했다는 게시물이야. Andrej Karpathy의 TinyStories-260K를 INT8/고정 소수점화하여, PC 없이, Wi-Fi 없이, 링크 케이블 없이, 클라우드 없이, 실제 기기 위에서 prefill과 자기회귀 (Autoregressive) 루프를 돌리고 있어.
DJ 렌:
GBDK-2020, MBC5 ROM, 뱅크 전환 카트리지 ROM에 가중치를 담고, 카트리지 SRAM에 KV 캐시를 저장하며, 토큰화 (Tokenization)와 입력도 온디바이스 (On-device)로 처리해. 생성 속도는 엄청나게 느리고 출력도 상당히 의미불명하지만, “작동하고 있다”는 사실 자체가 증명된 거지. 댓글창은 “무의미하기에 오히려 필수적이다”라는 식의 열기로 가득했는데, 기술적이라기보다는 로망의 영역이었어. 관련해서 GBALM에 대한 언급도 있었지.
DJ 미오:
그리고 태양광 구동 Qwen 3.6 서버. M1 Max 32GB에서 Unsloth 기반의 Qwen 27B GGUF를 사용하며, 100k 컨텍스트에 약 10 tok/s 속도를 보여. 전원은 100W 태양광 패널 3개와 Anker의 1.25kW 전원 유닛을 사용해. 추론 시 소비 전력은 대략 80~85W, 때로는 30W대이며, 아이들 (Idle) 상태는 5W 미만이야. Hermes나 opencode에서 사용 중인데 “상당히 좋다”고 하네.
DJ 렌:
댓글에서는 오프그리드 (Off-grid) 추론에서 Apple Silicon의 우위가 화제였어. 다른 GPU 계열 구성은 배터리를 너무 많이 소모하거든. 겨울, 특히 북반구 지역에서는 태양광만으로 연중 운용하는 것이 어려우니 하이브리드 전원으로 전환해야 한다는 현실적인 이야기도 나왔어.
DJ 미오:
그리고 “전기를 낭비하지 마라 (Stop wasting electricity)”. RTX 4090으로 llama.cpp의 llama-server를 구동한 사용자가, GPU의 전력 제한을 낮춰도 decode 속도는 크게 떨어지지 않는다고 보고했어. 설정을 보면 Qwen3.6-27B-UD-Q4_K_XL.gguf, flash-attn 적용, -ngl all, -ctk q4_0, -ctv q4_0, 컨텍스트 262144를 사용 중이야.
DJ 렌:
전력 제한을 걸면 소비 전력을 약 40%까지 낮출 수 있고 열과 소음도 줄어드는데, decode throughput은 거의 유지된다는 관측이야. 댓글에서는 RTX 5090을 450W에서 270W로 낮춰도 prefill은 15~20% 정도 떨어지지만 decode는 그렇게 악화되지 않는다고 하더라고. 그래서 벤치마크를 할 때는 prefill과 decode를 나누어서 측정해야 한다는 이야기가 나왔어.
DJ 미오:
DJ 미오:
3090이나 5090을 야간 정숙성 유지나 커넥터 발열 대책을 위해 강하게 전력 제한 (Power Limit)을 걸어 사용하는 사람들도 있어서, LLM 추론에서는 전력 최적화의 여지가 크다는 점이 보인다.
DJ 렌:
Reddit 테마 2는 오픈 소스 로컬 에이전트 UI. 우선 oobabooga의 TextGen. text-generation-webui에서 Windows/Linux/macOS용 포터블 Electron 데스크톱 앱으로 재편되었다. 사용자 데이터는 자기 완결적이며, CUDA, Vulkan, CPU-only, ROCm, Apple Silicon/Intel Mac 대응 빌드가 있다.
DJ 미오:
포지셔닝은 “오픈 소스 버전 LM Studio”. 외부 통신이 없으며, ik_llama.cpp 대응으로 IQ4_KS나 IQ5_KS 같은 새로운 양자화 (Quantization)도 다룰 수 있다. ddgs를 통한 웹 검색, Python/HTTP/stdio의 MCP 도구 호출과 승인 게이트, OpenAI/Anthropic 호환 API, Claude Code 대응, PyMuPDF를 통한 PDF 추출, trafilatura를 통한 웹 정제, Jinja2 채팅 템플릿까지 포함되어 있다. 라이선스는 AGPLv3.
DJ 렌:
댓글은 프라이빗하고 네이티브한 로컬 LLM 앱에 대한 수요가 강하다는 것을 보여주고 있었다. 또한, 로컬 LLM 계열의 도구들은 결국 OpenAI 호환 API로 수렴하는 경향이 있기 때문에, 프론트엔드나 도구를 교체하기 쉽다는 지적도 있었다.
DJ 미오:
또 하나는 “Claude Code를 처음부터 만들자”라는 게시물. NANO CLAUDE라는 CLI 코딩 에이전트의 튜토리얼과 GitHub 리포지토리가 공유되었다. 댓글에서는 “Claude”라는 명칭 사용이 상표권 리스크를 초래할 수 있다며, OpenClaw나 Clawdbot 같은 사례가 있다고 경고하는 경우가 많았다.
DJ 렌:
하지만 내용 면에서는 가치가 있다. **모델 호출, 도구 실행, 반복 루프 (Iterative Loop)**라는 에이전트의 기본 구조를 이해하기 위해서는 직접 구현해 보는 것이 매우 공부가 된다는 평가다. 기존의 유사 도구로 opencode나 Pi에 대한 언급도 있었다.
DJ 미오:
다음은 좀 더 일반적인 서브레딧(Subreddit) 요약. 테마는 현실 세계의 AI 에이전트 실패 모드.
DJ 렌:
먼저 “3개월 전의 ‘Vibe Engineer’가 만든 리포지토리를 인계받아, 인생에서 가장 기분 좋은 PR을 작성했다”라는 이야기. PR 차분 (Diff)은 +10,197, -3,618,778. AI/에이전트적인 분위기 코딩 (Vibe Coding)으로 부풀려진 백엔드를 일주일 만에 Claude를 사용하여 다시 작성했다고 한다.
DJ 미오:
숫자가 엄청나다. 309k행의 코드, 240k의 문서, 100만 행 이상의 Markdown 로그, 220개의 핸들러 중 사용된 것은 20개 정도, 40개가 넘는 시크릿 (Secret) 중 필요한 것은 2개. 기능은 유지하면서 더 깔끔한 백엔드와 통합 테스트로 정리했다고 한다. 댓글창에는 농담이 많았지만, 배경에는 AI 생성 기술 부채 (Technical Debt) 문제가 깔려 있다.
DJ 렌:
“vibe-coded mess의 청소”가 새로운 유지보수 비즈니스가 되지 않을까 하는 관점도 나오고 있었다. 또한, 에이전트적 개발을 치켜세우는 사람들이 반드시 소프트웨어 전문가인 것은 아니라는 신뢰 격차에 대한 이야기도 있었다. 겉보기에는 화려해도 인간에 의한 삭제, 검증, 재구성이 필요하다는 것이다.
DJ 미오:
또 다른 건 결혼식 하객용 AI 컨시어지. 모리셔스의 데스티네이션 웨딩을 위해, 처음에는 플래닝 지원을, 그 후에는 하객들을 위한 “Aido”라는 AI 안내역을 만들었다. API와 MCP 서버를 통해 여행 정보나 이벤트 정보를 가져오는 구성이다.
DJ 렌:
결과적으로 29명의 사용자가 719 세션, 8678개의 메시지를 생성했다. 이용 목적의 최대 카테고리는 진지한 로지스틱스 상담 35%였고, 2위는 **탈옥(Jailbreak) 및 해킹 시도 25%**였다. 저위험 프라이빗 용도에서조차 사용자가 상당한 확률로 공격적인 프롬프트를 시도한다는 좋은 사례가 되었다.
DJ 미오:
댓글에서는 29명이 8000개가 넘는 메시지를 보낸 것이 상당히 놀랍다는 반응도 있었고, 관측성 (Observability)과 프라이버시에 대한 우려도 나오고 있었다. 호스트가 하객의 대화 로그를 읽을 수 있다면, 거기에 거부감을 느끼지 않을 것인가 하는 문제다. 개인 이벤트용 챗봇이라도 로그 수집의 취급은 중요하다.
DJ 렌:
마지막으로 Discord. AINews는 이날, Discord 액세스가 중단되었으므로 이 형태로는 더 이상 복구하지 않겠다고 공지했다. 대신 새로운 AINews를 선보이겠다고 했다. 시대의 전환점을 느끼게 하는 마무리였다.
DJ 렌:
전체를 요약하자면, "아무 일도 일어나지 않은 날"은커녕, 실제로는 상당히 명확한 조류가 보였던 날이었다.
첫째, 에이전트(Agent)는 챗봇(Chatbot)에서 장시간·상태 유지·가관측 가능한 실행 시스템으로.
둘째, 모델 연구는 학습 효율, 병렬 스트림, 외부 메모리, 압축, 데이터 선별로.
셋째, 기업 시장에서는 **가격, 보조금, 샌드박스(Sandbox), 안전성, 락인(Lock-in)**이 승부를 결정짓고 있다.
그리고 넷째, 자율 과학·사이버·로보틱스가 아이디어 단계에서 운용 가능한 능력의 실증 단계로 이동하기 시작했다.
DJ 렌:
여기에 더해 Reddit 측에서는 초소형 툴 모델(Tool Model), 레트로 하드웨어에서의 추론, 태양광 운용, 저전력화, 로컬 UI의 네이티브화와 같이, "수중에 어떻게 돌릴 것인가"에 대한 지혜도 풍부했다. 그리고 현장에서는 AI 에이전트의 실패가 화려한 이론이 아니라, 코드 비대화나 탈옥(Jailbreak) 시도, 로그 처리와 같은 투박한 문제로 나타나고 있다.
DJ 미오:
조용한 날일수록 기반의 변화가 잘 보인다. 그런 회차였다.
DJ 렌:
오늘 밤의 "Midnight AI Groove"는 여기까지. 다음 시간에 다시 노이즈 속에서 진정한 흐름을 찾아보자.
DJ 미오:
안녕히 주무세요.
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기