
Midnight AI Groove 26-05-27
요약
AI 업계의 중심이 모델 자체의 성능에서 추론 아키텍처, 에이전트 운용, 기업용 인프라로 이동하고 있습니다. EAGLE 3.1의 투기적 디코딩 개선, Perplexity의 고효율 토크나이저 오픈소스화, Qwen3.5의 에이전트 워크로드 최적화 등 실질적인 추론 효율화 기술들이 핵심입니다.
핵심 포인트
- EAGLE 3.1: 투기적 디코딩 안정화로 어텐션 드리프트 감소 및 서빙 신뢰성 향상
- Perplexity Unigram Tokenizer: CPU 사용률 5~6배 절감 및 제로 힙 할당 달성
- Qwen3.5: 에이전트 워크로드에서 580 tokens/s의 높은 처리 속도 구현
- MaxSim v2: H200/A100 환경에서 PyTorch 대비 최대 11.94배 가속화
DJ 렌:
안녕하세요, 한밤중의 AI 튜닝 타임에 오신 것을 환영합니다. DJ 렌입니다.
DJ 미오:
DJ 미오입니다. 오늘 밤의 「Midnight AI Groove」는 AINews의 「not much happened today」 회를 바탕으로, 실제로는 전혀 “not much”가 아닌, AI 업계의 움직임을 정리해 보겠습니다.
DJ 렌:
제목은 조용해도 내용은 상당히 알찹니다. 대상 기간은 2026년 5월 26일부터 5월 27일입니다.
AINews 측에서는 12개의 서브레딧(Subreddit), 544개의 Twitter 계정, Discord 추가 사항 없음을 체크했다고 합니다. 또한, AINews는 이제 Latent Space의 일부가 되어 있으며, 배포 빈도도 선택할 수 있다고 하네요.
DJ 미오:
그럼 먼저 큰 흐름부터 살펴보죠. 이번 전체 테마를 한마디로 요약하자면,
**「성능 경쟁이 “모델 그 자체”에서 “추론 아키텍처(Inference Architecture)”, “에이전트 운용(Agentic Operations)”, “기업 도입 인프라(Enterprise Deployment Infrastructure)”로 옮겨가고 있다」**는 인상이었습니다.
DJ 렌:
처음은 추론 효율성 관련입니다. 이 부분, 상당히 중요합니다.
먼저 EAGLE 3.1. 이것은 speculative decoding (투기적 디코딩), 즉 투기적 디코딩의 견고성 개선이 중심입니다.
DJ 미오:
포인트는 단순히 빠른 것뿐만 아니라,
hidden-state feedback (은닉 상태 피드백)을 안정화시켜서, 깊은 디코딩 단계에서의 attention drift (어텐션 드리프트)를 줄이는 것입니다.
게다가, **long-context (긴 문맥) 시의 acceptance length (수용 길이)**나 실운용에서의 serving (서빙) 신뢰성을 상당히 의식하고 있더라고요.
DJ 렌:
맞습니다. 연구 데모가 아니라, 실제 운영 환경의 추론을 어떻게 안정화할 것인가의 문제죠.
게다가 팀은 vLLM이나 TorchSpec과의 협업에 대해서도 언급했습니다. 즉, 알고리즘 단독이 아니라 실제 Serving Stack과의 연결이 진행되고 있다는 뜻입니다.
DJ 미오:
한편, 조금 더 시스템에 가까운 이야기로는, Perplexity가 재구축한 **Unigram tokenizer (유니그램 토크나이저)**를 오픈 소스화했습니다.
이것이 CPU 사용률을 5~6배 절감하고, **514개 토큰에서 63마이크로초, zero heap allocation (제로 힙 할당)**을 달성했다는 내용이었습니다.
DJ 렌:
토크나이저 개선은 겉보기엔 사소해 보일 수 있지만, 효과가 엄청납니다.
추론 비용은 GPU뿐만 아니라 전후의 파이프라인도 영향을 미치기 때문이죠.
DJ 미오:
나아가 Qwen3.5가 TokenSpeed 상에서 agentic workloads (에이전트 워크로드)에 대해 580 tokens/s를 달성했다는 보고도 있었습니다.
게다가 이것은 Alibaba, LightSeek, NVIDIA, Mooncake, FlashAttention-4의 기여자들에 의한 공동 최적화의 성과로 언급되었습니다.
DJ 렌:
모델의 속도는 이제 단독 연구실에서만 만들어내는 것이 아니군요.
모델 설계, attention 최적화, 커널, Serving, 라이브러리, 그 모든 것을 합친 결과물입니다.
DJ 미오:
라이브러리 측면에서는 MaxSim v2도 개선되었습니다. backprop (역전파) 대응에 더해, H200에서 10.33배, A100에서 11.94배의 naïve한 PyTorch 대비 가속화를 보고했습니다.
DJ 렌:
다음은 매우 흥미로운 논점입니다.
최근 중국계 연구소들의 API 가격 인하, 이것은 단순한 적자 각오 차원의 인하가 아니라, 구조적으로 지속 가능하다는 견해가 강해지고 있다고 합니다.
DJ 미오:
그 근거가 KV-cache와 attention 설계의 변화입니다.
특히 DeepSeek V4-Pro.
@kimmonismus의 요약에 따르면, **Compressed Sparse Attention (압축 희소 어텐션)**과 **Heavily Compressed Attention (고압축 어텐션)**을 결합한 **hybrid attention (하이브리드 어텐션)**을 통해,
100만 토큰의 KV cache를 V3.2 대비 약 10%까지 압축하고,
게다가 single-token inference FLOPs (단일 토큰 추론 연산량)를 27%까지 압축하면서,
총 1.6T 파라미터 중 49B active params (활성 파라미터)를 라우팅하고 있습니다.
DJ 렌:
숫자의 임팩트가 엄청나네요.
긴 문맥(Long-context)은 "무거우니까 비싸다"가 상식이었지만, 그 비용 구조 자체가 바뀌고 있습니다.
DJ 미오:
같은 흐름으로 Xiaomi의 MiMo도 등장합니다.
이것은 **SWA (Sliding Window Attention)**와 **계층적 캐시 관리 (hierarchical cache management)**를 통해 캐시 트래픽 (cache traffic)을 절감합니다.
게다가 @_LuoFuli가 직접 보충 설명을 했는데,
MiMo의 가장 핵심적인 **입력-캐시 히트 (input-cache-hit)**에서의 비용 절감은,
캐시된 토큰 용량 (cached token capacity)이 5배,
캐싱 비용 (caching cost)이 약 80% 저하,
나아가 **Full:SWA = 1:7 의 희소성 비율 (sparsity ratio)**에서 기인한다고 설명하고 있습니다.
DJ 렌:
즉, 지금의 긴 문맥 추론(Long-context reasoning)의 경제성은,
저렴한 GPU를 기다리는 문제가 아니라, 어텐션 (attention) 설계 · 캐시 계층 (cache hierarchy) · 라우팅 (routing) 설계의 승부가 되었다는 것이죠.
DJ 미오:
이 부분, 이번 Twitter Recap 전체를 관통하는 테마 중 하나였네요.
DJ 렌:
다음은 에이전트(Agent)입니다.
이번의 핵심 문구는,
“모델 품질 (model quality)”에서 “모델-하네스-메모리 적합성 (model-harness-memory fit)”으로 입니다.
DJ 미오:
먼저 LangChain.
Deep Agents v0.6를 출시하여, Delta Channels를 통해 200턴의 코딩 세션 체크포인트 저장을 5.3GB에서 129MB로 줄였습니다. 이는 상당히 실무적입니다.
DJ 렌:
여기에 더해 Fleet에서 컴퓨터 사용 (computer use) 대응, 그리고 Context Hub를 통해 **버전 관리된 에이전트 컨텍스트/스킬 (agent context/skills)**을 제공합니다.
요컨대, 에이전트는 모델 한 방 승부가 아니라, 문맥 · 도구 · 기억 · 재현성으로 싸우는 세상에 들어와 있습니다.
DJ 미오:
LangSmith Engine도 그 맥락이죠.
평가 (eval) → 진단 (diagnosis) → 수정 (fix) 루프를 자동화하여, 트레이스 (trace)에서 얻은 피드백을 온라인/오프라인 평가기 (evaluator)로서 재사용하는 가치가 강조되었습니다.
DJ 렌:
그리고 이날의 정리 중 특히 명확했던 것이 @Vtrivedy10의 주장입니다.
“태스크-하네스 적합성 (task-harness fit)은 모델 품질만큼 중요하다”.
즉, 모델의 기본 역량뿐만 아니라, 그 업무에 특화되어 정교하게 다듬어진 도구, 프롬프트, 문맥 설계가 더 효과적인 경우가 많다는 것입니다.
DJ 미오:
이것은 범용 에이전트에 대한 반성이기도 하죠.
무엇이든 할 수 있는 그릇보다, 수직적으로 깊은 전문 시스템이 현장에서는 이기기 쉽습니다.
DJ 렌:
여기서 더 큰 흐름은 **지속적 학습 (continual learning)**의 재부상입니다.
연구 주제가 아니라, 하나의 **제품 카테고리 (product category)**로서 움직이기 시작했습니다.
DJ 미오:
상징적인 것이 Trajectory의 론칭이었습니다.
**제품 이용 시그널 (product usage signal)**이나 **에이전트 트레이스 (agent trace)**를 사용하여, 대규모 에이전트 모델을 **지속적으로 사후 학습 (post-train)**하는 플랫폼입니다.
게다가 1,500만 달러를 조달했으며, 디자인 파트너로는 Clay, Harvey, Decagon, Mercor, Rogo가 있습니다.
DJ 렌:
운영 후에 계속 학습한다, 즉 “배포 후 개선”이 제대로 인프라화되었다는 뜻이군요.
DJ 미오:
그것을 뒷받침하는 측으로서 Baseten이 **FP8/NVFP4 양자화 (quantization)**와 오토스케일링되는 H100 인프라를 제공합니다.
심지어 397B 파라미터 모델을 하룻밤 사이에 배포했다는 구체적인 사례도 있습니다.
DJ 렌:
오픈 소스 측면에서도 흐름은 일치합니다.
**LangChain/LangGraph 기반의 메모리 중심 에이전트 (memory-centric agent)**가,
검색 (retrieval) / 저장 (storage) / 추론 (reasoning) / 학습 (learning)의 분리를 명시하고 있다는 점에서 높게 평가받고 있습니다.
DJ 미오:
그리고 RLM의 최소 학습 하네스 (minimal training harness).
이것은 8×A100으로 하루면 긴 문맥 에이전트 (long-context agent)를 RL (강화학습) 튜닝할 수 있다는 이야기로, 소규모 팀에게도 문호가 열리고 있음을 보여줍니다.
DJ 렌:
총괄하자면,
“배포 후 학습 (post-deployment learning)”이 이상론에서 실무 인프라로 옮겨가기 시작했다는 점이 중요하겠네요.
DJ 미오:
다음은 벤치마크입니다.
이 부분도 이번에 상당히 흥미로웠습니다.
새로운 벤치마크는 이제 깔끔한 문제집이 아니라, 장기적·혼돈적·실무 지향적으로 변하고 있습니다.
DJ 렌:
먼저 DeepSWE입니다.
이것은 **SWE/agent 벤치마크 (SWE/agent benchmark)**로, 5개 언어·91개 리포지토리·113개 태스크를 다룹니다.
특징은 **bash-only 방식의 미니멀한 하네스 (minimal harness)**와 **짧은 프롬프트 (short prompt)**를 사용함에도 불구하고,
SWE-Bench Pro보다 평균 5.5배 많은 코드 양을 다루며,
평균 7개의 파일을 수정해야 한다는 점입니다.
DJ 미오:
“진짜 작업”에 가까워지고 있네요.
단일 함수 수정이 아니라, 여러 파일을 가로지르는 변경이 필요하니까요.
DJ 렌:
기업 운영 측면에서는 Artificial Analysis와 IBM에 의한 ITBench-AA가 있습니다.
이것은 **Kubernetes의 인시던트 대응을 다루는 SRE 벤치마크 (SRE benchmark)**인데,
놀랍게도 모든 프론티어 모델 (frontier models)의 점수가 50% 미만입니다.
1위는 Claude Opus 4.7이 47%, 그다음이 **GPT-5.5가 46%**이며,
오픈 웨이트 (open-weight) 모델 중 1위는 **GLM-5.1 Reasoning이 40%**를 기록했습니다.
DJ 미오:
즉, 현장의 SRE 대응과 같은 복잡하고 노이즈가 많은 업무는 아직 어렵다는 뜻이군요.
이와 관련하여 AgingBench도 소개되었는데,
배포된 에이전트의 성능 저하를 **압축 (compression), 간섭 (interference), 메모리 업데이트 (memory updates)**에 의한 **수명 문제 (lifespan problem)**로 파악하는 관점이 제시되었습니다.
DJ 렌:
학습 효율 연구도 활발합니다.
이번에 특히 주목받은 것은 Sakana AI의 DiffusionBlocks입니다.
DJ 미오:
이것은 기술적으로 상당히 흥미롭습니다.
순전파 (forward pass)를 디퓨전 방식의 디노이징 단계 (denoising step)로 재해석하여,
심층 신경망 (deep nets)을 블록 단위로 학습할 수 있게 합니다.
결과적으로 메모리를 크게 줄이면서도 엔드 투 엔드 학습 (end-to-end learning)과 동등한 성능을 달성했다고 주장합니다.
DJ 렌:
게다가 적용 범위가 넓습니다.
ViTs, DiTs, masked diffusion, autoregressive transformers, recurrent-depth transformers까지 모두 포함합니다.
DJ 미오:
RL 시스템 측면에서는 Snowflake의 ZoRRo가 있습니다.
중복되는 롤아웃 계산 (redundant rollout computation)을 줄임으로써,
롱 컨텍스트 RL (long-context RL)을 최대 3.5배 가속화하고,
나아가 컨텍스트 창 (context window)을 3.2배 더 길게 만들 수 있다고 합니다.
여기에 더해 기업용 SQL 모델인 Arctic-Text2SQL-R2도 발표되었습니다.
DJ 렌:
이론 측면에서는,
Tiberiu Musat의 프리프린트 (preprint)가,
고정 정밀도 네트워크에서 최소 신경망 가중치 노름 (minimum neural weight norm)이 최소 프로그램 길이 (minimum program length)와 로그 인자 (logarithmic factor) 수준까지 일치한다고 주장했습니다.
그리고 Unified Neural Scaling Law는,
기존보다 더 정확하게 외삽 (extrapolation)하는 것을 목표로 한 **다변량 스케일링 함수 형태 (multivariate scaling function form)**를 제안하고 있습니다.
DJ 미오:
다음은 모델과 모달리티 (modality)의 신작들입니다.
이날 “과학적 출시의 주인공”은 ESMFold2였습니다.
DJ 렌:
네. 이것은 단백질 구조 예측 및 설계를 위한 오픈 과학 엔진입니다.
단백질 상호작용 (protein interactions) 및 항체 (antibodies) 분야에서 강력한 결과를 보고했으며,
나아가 68억 개의 단백질과 11억 개의 예측 구조를 포함하는 아틀라스 (atlas)도 동시에 공개되었습니다.
DJ 미오:
실용적인 면에서는,
**5가지 치료 표적에 대한 미니 단백질 결합체 (miniprotein binders) 및 단일 사슬 항체 (single-chain antibodies)**의 설계 성과를 강조했습니다.
더불어, **창발된 단백질 표현의 메커니즘적 해석 가능성 (mechanistic interpretability)**에 대해서도 언급했습니다.
DJ 렌:
그리고 @proteinrosh도 반응했으며, @cgeorgiaw는 이 아틀라스가 AlphaFold DB를 규모 면에서 능가한다고 평가했습니다.
DJ 미오:
멀티모달이나 실용적인 측면에서 규모는 작지만 중요한 릴리스도 많았네요.
우선 Google DeepMind의 Gemini Embedding 2 화이트페이퍼입니다.
이것은 텍스트·이미지·음성·영상을 아우르는 통합 표현을 다루는 네이티브 **multimodal embedding model (멀티모달 임베딩 모델)**입니다.
DJ 렌:
NVIDIA의 LocateAnything도 흥미롭습니다.
Qwen2.5-3B + Moon-ViT를 조합하여 빠른 **grounding (그라운딩)**을 실현하고,
dense object detection (밀집 객체 탐지)에서 10배 속도 향상을 내세우고 있습니다.
DJ 미오:
게다가 Hugging Face가 Roboflow의 RF-DETR을 통합했습니다.
실시간 detection/segmentation (탐지/세그멘테이션) 측면에서 YOLO 계열보다 우수한 위치에 있습니다.
DJ 렌:
문서 처리에서는 Surya OCR 2가 나왔습니다.
650M 모델로, OLMOCR 벤치마크에서 83.3%,
내부 **91개 언어 벤치마크에서 87%**를 기록했으며,
게다가 RTX 5090에서 초당 5페이지를 처리합니다.
DJ 미오:
그리고 LiteParse v2는 Rust로 전면 재작성되었습니다.
최대 100배 속도 향상을 이루었으며, WASM (WebAssembly)을 통한 에지/브라우저 전개도 가능해졌습니다.
DJ 렌:
온디바이스 AI(On-device AI)에서는 Google의 새로운 Coral board도 화제입니다.
로컬 음성·비전·제어 데모를 위한 것이네요.
DJ 미오:
여기서부터는 개발자용 플랫폼과 엔터프라이즈 통제에 관한 이야기입니다.
코딩 에이전트가 단일 기능이 아니라 “제품 스택 (product stack)”이 되어가고 있다는 내용입니다.
DJ 렌:
먼저 OpenAI / Codex입니다.
GPT-5.2와 GPT-5.3-Codex는 Codex 내에서 종료되고, GPT-5.5로 통합되는 방향으로 가고 있습니다.
여기에 기업용 기능으로,
outbound-only HTTPS 기반의 private MCP 연결,
Workload Identity Federation,
그리고 **spend alerts (지출 알림), allowlists (허용 목록), retention policies (보존 정책), hosted tool management (호스팅 도구 관리)**를 포함한 Admin API 강화가 발표되었습니다.
DJ 미오:
즉, 승부처가 “똑똑한 모델”에서 “기업이 안심하고 도입할 수 있는 통제 측면”으로 옮겨가고 있다는 뜻입니다.
OpenAI는 세무 에이전트의 self-improving (자기 개선) 사례 연구도 공개했는데,
리뷰어의 수정을 추적하여 eval (평가) 및 fix (수정)로 되돌리는 메커니즘을 보여주었습니다.
DJ 렌:
경쟁사들도 당연히 움직이고 있습니다.
Claude Code는 신뢰성·성능 개선과 버그 보고 반영 개선을 발표했습니다.
GitHub는 Copilot Dev Days와 MCP 포지셔닝을 통해 agentized IDE (에이전트화된 IDE) 노선을 지속하고 있습니다.
DJ 미오:
그리고 가장 큰 상업적 뉴스는 Cognition입니다.
10억 달러 이상을 조달했으며, 기업 가치는 260억 달러, enterprise usage (기업 사용량)은 연초 대비 10배 이상, run-rate revenue (연간 환산 매출)는 4억 9,200만 달러에 달합니다.
고객 리스트도 확장되고 있으며, Exa와 같은 사용자들로부터 강력한 지지를 받고 있습니다.
DJ 렌:
또한 생태계의 확장도 보입니다.
Cua Driver for Windows를 통한 Windows 상의 background computer use (백그라운드 컴퓨터 사용),
Cloudflare의 agent platform은 fractional computing economics (분할 컴퓨팅 경제성) 측면에서 높은 평가를 받고 있으며,
Grok Build는 worktree support를 통해 **repo (저장소) 규모의 multi-agent code swarms (멀티 에이전트 코드 스웜)**를 목표로 하고 있습니다.
DJ 미오:
여기서 반응이 좋았던 트윗들도 정리해 두겠습니다.
DJ 렌:
우선 역시 Cognition의 급격한 성장입니다.
10억 달러 이상 조달, 260억 달러 가치, 4억 9,200만 달러의 run-rate revenue라는 숫자는,
코딩 에이전트가 대형 엔터프라이즈 사업으로 변모하고 있음을 보여주는 강력한 신호입니다.
DJ 미오:
다음은 Claude Code의 신뢰성 개선입니다.
성능이나 응답성뿐만 아니라, 피드백 수집을 개선하고 있다는 점은,
현재 경쟁의 축이 품질과 신뢰에 있음을 보여줍니다.
DJ 렌:
그리고 Sakana AI의 DiffusionBlocks.
블록 단위 학습으로 메모리를 대폭 절감하면서도 end-to-end 성능에 필적한다는 이 발상의 참신함이 주목을 받았습니다.
DJ 미오:
ESMFold2도 컸었죠.
오픈 소스 단백질 모델링이 아틀라스(Atlas)급 스케일로 등장한 의의는 상당히 큽니다.
DJ 렌:
마지막으로 OpenAI의 enterprise controls + MCP.
프런티어 API 경쟁이 바로 대기업 도입을 위한 관리·연결·통제 기능으로 확장되고 있음을 상징하고 있었습니다.
DJ 미오:
그럼 Reddit 편입니다. 우선 /r/LocalLlama와 /r/localLLM부터 살펴보죠.
첫 번째 큰 화제는 PrismML의 Binary and Ternary Bonsai Image 4B였습니다.
DJ 렌:
이것은 1-bit/ternary text-to-image diffusion transformer로,
약 3GB의 체크포인트, Apache-2.0 라이선스, 게다가 WebGPU를 이용한 브라우저 완전 로컬 실행 데모까지 포함되어 있습니다.
비교 대상으로 FLUX.2 Klein 4B의 약 16GB가 언급되었습니다.
DJ 미오:
다만, 화제의 중심은 성능뿐만 아니라 귀속 표시(attribution) 문제였습니다.
베스트 댓글에서는 이것이 새로운 베이스 모델이라기보다,
FLUX.2 Klein 4B를 양자화(Quantization) 및 추가 학습한 파생 모델이 아닌가 하는 의문과 함께,
그럼에도 원래 모델이나 원본 팀에 대한 크레딧(credit)이 부족하다는 비판이 나왔습니다.
DJ 렌:
즉 기술보다는 branding / attribution / open model etiquette가 쟁점이 된 것이죠.
또한, 브라우저 WebGPU 버전에서도 다운로드 크기가 약 2GB 필요하다는 실용적인 주의사항도 있었습니다.
DJ 미오:
그리고 다른 스레드에서는,
4GB GPU에서 OOM(Out of Memory)에 지쳐서 Rust로 bare-metal engine을 작성했다는 게시물이 있었습니다.
주장에 따르면, RTX 3050 4GB에서 BitNet 1.58b의 4B 모델을 66.8 tokens/s로 구동하며,
Gemma/Qwen 4B 계열에서도 30~33 TPS를 기록했고,
심지어 dynamic KV-cache management를 통해 OOM 없이 작동한다고 합니다.
DJ 렌:
하지만 이 부분, 댓글창은 상당히 회의적입니다.
재현 가능한 repo나 벤치마크가 없다는 점,
“direct-to-silicon”이나 “bare-metal engine” 같은 표현이 마케팅처럼 느껴진다는 점,
실제로는 AOT(Ahead-of-Time) 네이티브 컴파일 정도가 아니냐는 지적도 강했습니다.
DJ 미오:
게다가,
“그건 llama.cpp의 적절한 설정으로 해결할 수 있는 문제 아닌가요?”
라는 지적도 중요했습니다.
즉, 새로운 엔진의 가치를 주장하려면 기존 도구와의 비교와 재현성이 필요하다는 것이죠.
DJ 렌:
다음은 Qwen 계열입니다.
먼저 매우 긴 제목의 게시물,
Qwen3.5-35B-A3B uncensored heretic Native MTP Preserved입니다.
DJ 미오:
내용을 보면, Qwen3.5-35B-A3B에 대해
Heretic v1.3.0 / Magnitude-Preserving Orthogonal Ablation 계열의 편집을 가하고,
attn.o_proj, attn.out_proj, mlp.down_proj 등을 대상으로 desensolving(탈감각화)을 진행하면서도,
785개의 모든 native MTP tensor를 유지한 파생 모델입니다.
DJ 렌:
모델 카드에 따르면,
거부(refusal) 응답이 100건 중 92건에서 14건으로 감소했고,
KL divergence(KL 발산)는 베이스 대비 0.0487이며,
MMLU는 84.12%에서 83.72%로 미세하게 하락했습니다.
배포 형식은 Safetensors, GGUF, NVFP4, NVFP4 GGUF, GPTQ-Int4입니다.
DJ 미오:
댓글에서는 특히 NVFP4 GGUF가 제공된다는 점이 이례적이라며 높게 평가되었습니다.
「Unsloth에서조차 좀처럼 보기 힘들다」라는 목소리도 있었죠.
DJ 렌:
그리고 제작자는,
Qwen3.5와 Qwen3.6은 동일한 qwen35 아키텍처이지만, 조정(tuning)의 방향성이 다르다,
3.5는 범용 지원(general purpose support)에 가깝고, 3.6은 에이전트/코딩(agentic/coding)에 가깝다고 설명했습니다.
댓글에서도 "3.6은 전면적인 진화 버전이라기보다 '3.5 coder+'에 가깝다"라는 반응이 있었습니다.
DJ 미오:
또 다른 화제는,
Qwen 27B가 단 한 번의 시도로 상당히 완성도 높은 HTML5 Breakout 스타일의 게임을 만들 수 있었다는 체험담입니다.
console API, gamepad controls, TypeScript shader라는 3개의 참조 파일로부터,
거의 그대로 플레이 가능한 게임을 원샷(one-shot) 생성해냈습니다.
조작, 소리, 메타데이터, save/stat/heartbeat API 연동까지 작동하며,
필요했던 것은 커스터마이징 1회와 버그 수정 1회 정도였습니다.
DJ 렌:
상당히 높은 평가였네요.
게다가 댓글에서는 MTP/speculative decoding을 2~3개의 draft tokens로 활성화하면 빠르다는 실운용 팁도 올라왔습니다.
DJ 미오:
다만 긴 문장에는 주의해야 합니다.
헤비 유저의 보고에 따르면,
64K 이하가 베스트이며,
64K를 넘어가면 성능 저하가 눈에 띄고,
128K를 넘으면 성능이 상당히 떨어진다고 합니다.
긴 에이전트 코딩(agentic coding) 시에는,
정기적으로 요약본을 파일로 저장하여 세션을 재시작하고 다시 불러오는 것이 유효하다는 이야기였습니다.
DJ 렌:
즉, 로컬에서 강력한 모델은 나오고 있지만,
컨텍스트 관리(context management) 자체가 곧 성능 관리가 되고 있는 셈이네요.
DJ 미오:
다음은 좀 더 일반적인 AI 서브레딧(subreddit) 요약입니다.
첫 번째 테마는 **Claude Code의 바이브 코딩(vibe coding)**입니다.
DJ 렌:
우선 인상적이었던 것은,
**"Claude로 만든 것은 타인에게 도움이 되지 않는다. 하지만 그 자체로 의미가 있다"**라는 게시물이었습니다.
건강 데이터 상관관계 도구, Garmin 아카이브, 특정 상점 전용 쇼핑 분류기, 니치한 바이오인포매틱스 파이프라인, 단말기 에러 해설 등,
초개인화된 소프트웨어야말로 가치가 있다는 주장입니다.
DJ 미오:
그 와중에 공개할 때는 코드 그 자체보다,
어떤 마찰이 있었고, 기존 도구가 왜 맞지 않았으며, 어떻게 문제를 설정했는지를 설명하는 것이 타인이 전용하기에 더 좋다고 합니다.
댓글에서는 이를 **"소프트웨어 개발의 3D 프린팅화"**에 비유하는 목소리도 있었습니다.
DJ 렌:
또한, 다른 댓글에서는 AI를 통해 기술 문서 작성이 10배 품질 향상, 1/100의 시간으로 단축되었다는 이야기도 있었습니다.
"이전에는 시작조차 할 수 없었던 문서 작업에 착수할 수 있게 되었다"는 점도 큽니다.
DJ 미오:
다음 게시물은,
**"만약 지금 제로 베이스에서 Claude Code로 앱 개발을 배운다면"이라는, 10년 차 소프트웨어 엔지니어의 제안입니다.
결론은 초보자일수록 탑다운(top-down) 방식으로 아키텍처를 배워야 한다는 것입니다.
DJ 렌:
즉 전형적인 웹 앱(web app)이라면,
frontend + backend + database + plumbing입니다.
그리고 "plumbing"에는,
API, 호스팅/DNS/배포, 환경 변수/시크릿, 인증과 인가, 백업, Git/버전 관리, 테스트, 모니터링/에러 트래킹, 분석까지 포함됩니다.
DJ 미오:
다만 댓글에서는,
이것은 웹 서비스 중심의 세계관이며 보편적인 것은 아니라는 반론도 있었습니다.
임베디드, 시뮬레이션, 과학 기술 계산, 산업 제어, 방위, 광학, FEA 등은,
애초에 frontend/backend/database의 분할이 없는 경우도 많습니다.
DJ 렌:
반면에,
1만 행 규모에 가까워지면 설계 미스가 "Byzantine"한 결합이 되어 되돌리기 어려워진다는 경고에는 폭넓은 공감이 모였습니다.
Netflix든 전력망이든, 규모는 달라도 **"근본적인 수정이 불가능한 구조적 문제"**에 빠지는 점은 비슷하다고 합니다.
DJ 미오:
나아가 실무적인 주의 사항으로, Claude Code의 과금 함정도 공유되었습니다.
만약 셸 환경이나 .env에서 ANTHROPIC_API_KEY가 노출되어 있다면,
Max 플랜의 범위를 벗어나 API 과금으로 이어지는 경우가 있다.
cron이나 subprocess의 cla de -p run에도 영향을 미치므로,
서브 프로세스 환경에서 키를 제거하고, OAuth 인증으로 폴백 (Fallback) 시키는 것이 대책이다.
DJ 렌:
그리고, 훈훈한 성공 사례로서,
코딩 초보자가 Claude Code로 만든 Questboard.
가족용 RPG 스타일의 심부름 보드로,
자정까지 집안일을 마치면 골드 획득, 실패하면 몬스터가 반격하며,
골드는 가족이 정한 보상 숍에서 사용할 수 있다.
기술적으로 무겁지는 않지만, **AI 지원 코딩 (AI-assisted coding)의 실생활 유스케이스 (Use case)**로서 매우 상징적이었다.
DJ 미오:
다음은 기업에서의 AI 이용 비용과 통제.
이 부분은 상당히 현실감 있는 이야기들이 나열되었습니다.
DJ 렌:
우선은,
**"회사가 Claude Code Sonnet 4.6을 전원에게 무제한으로 배포한 데다, 매주 '누가 가장 토큰을 많이 태웠나' 랭킹을 매기고 있다"**라는 게시물.
완전한 이용량의 게이미피케이션 (Gamification)이네요.
DJ 미오:
톱 댓글의 기술적 코멘트는 의외로 제대로 되어 있어서,
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기