Midnight AI Groove 26-04-30

DJ 렌:

안녕하세요, 심야의 AI 뉴스를 그루브로 잇는 「Midnight AI Groove」. DJ 렌입니다.

DJ 미오:

DJ 미오입니다. 오늘 밤은 AINews, 2026년 4월 29일부터 30일의 회차인 「not much happened today」를 바탕으로 전해드립니다. 타이틀은 「오늘은 별로 아무 일도 없었다」이지만…….

DJ 렌:

실제로는 GPT-5.5의 사이버 평가, Codex의 일반 업무화, Qwen3.6, Grok 4.3, DeepSeek V4 관련 소식, Mistral Medium 3.5, 보안, Reddit의 로컬 LLM 화제까지, 꽤 알차게 채워져 있습니다.

DJ 미오:

AINews는 이날 12개의 subreddit, 544개의 Twitter 계정을 체크했습니다. 다만 Discord에 대해서는 Discord 측의 액세스 중단으로 인해, 기존 형식으로는 이번이 마지막에 가까운 취급입니다. 향후 새로운 AINews를 낼 예정이라는 안내도 있었습니다. AINews는 현재 Latent Space의 일부이며, 과거 호 검색이나 메일 빈도 변경도 가능하다고 합니다.

DJ 렌:

먼저 OpenAI입니다. GPT-5.5가 장기적·다단계 사이버 태스크(Cyber Task)에서 상당히 상위권에 올랐다는 이야기가 큽니다.

DJ 미오:

UK AI Security Institute(영국 AI 안전 연구소)가 GPT-5.5는 다단계 사이버 공격 시뮬레이션을 엔드 투 엔드(End-to-End)로 완료한 두 번째 모델이라고 보고했습니다. 지금까지는 「공격적 사이버 자동화에서는 Anthropic이 독자적으로 리드하고 있다」는 견해가 있었지만, 그것이 바뀌고 있습니다.

DJ 렌:

비교 대상은 Anthropic의 Claude Mythos Preview입니다. @scaling01에 따르면 평균 패스율(Pass Rate)은 GPT-5.5가 71.4%, Mythos가 68.6%입니다. @cryps1s는 TLO 체인에 대해 GPT-5.5가 10회 중 2회, Mythos가 10회 중 3회 성공했다고 지적했습니다.

DJ 미오:

나아가 @polynoamial은 추론 예산(Inference Budget)이 1억 토큰을 넘어도 성능 개선이 계속되고 있어, 명확한 포화 상태가 보이지 않는 점을 강조했습니다. 즉, 추론량을 늘리면 아직 더 성장할 가능성이 있다는 뜻입니다.

DJ 렌:

이 타이밍에 OpenAI는 ChatGPT를 위한 Advanced Account Security도 출시했습니다. 피싱 내성이 있는 사인인(Sign-in)과 더욱 견고한 계정 복구 기능을 추가했습니다. 능력 평가와 동시에 제품 측면의 안전 강화도 함께 내놓은 형태입니다.

DJ 미오:

OpenAI의 또 다른 큰 화제는 Codex입니다. 지금까지 코딩 지원의 인상이 강했던 Codex가 「누구에게나, 컴퓨터로 수행하는 모든 작업에」라는 방향으로 크게 확장되었습니다.

DJ 렌:

내용으로는 역할 기반의 온보딩(Onboarding), 앱 연결, 문서, 슬라이드, 스프레드시트, 리서치, 계획 작성까지 확장되는 워크플로우입니다.

DJ 미오:

@ajambrosino는 태스크에 따라 변하는 동적 UI, 컴퓨터 및 브라우저 조작이 20% 가속화, 슬라이드 및 시트 처리 개선, 인수인계의 어색함 완화 등을 정리했습니다. @AriX는 Computer Use가 업데이트 후에 42% 빨라진 점을 소개했습니다.

DJ 렌:

Sam Altman도 「Codex에 큰 업그레이드. 비코딩 컴퓨터 작업에도 시도해 보세요」라고 게시했습니다. OpenAI는 모델 능력뿐만 아니라, 컴퓨터 조작 에이전트의 UX를 제품화하고 있는 흐름이군요.

DJ 미오:

벤치마크 측면에서는 Artificial Analysis가 GPT-5.5 Pro를 CritPt에서 GPT-5.4 Pro를 근소하게 앞서는 새로운 SOTA(State-of-the-Art)라고 보고했습니다.

DJ 렌:

다만 주목할 점은 스코어의 상승 그 자체보다, 프론티어 과학계 평가에서 비용과 토큰 사용량을 약 60% 절감하면서도 개선했다는 점입니다. GPT-5.5 패밀리는 극적인 지능의 격차라기보다, 고가치 워크플로우에서의 신뢰성과 효율성 개선이 주역이라는 견해입니다.

DJ 렌:

이어서 오픈 웨이트(Open Weights) 관련 소식입니다. 오늘 가장 중요해 보이는 것은 Qwen3.6 27B입니다.

DJ 미오:

Artificial Analysis에 따르면, Qwen3.6 27B는 150B 파라미터 미만의 오픈 웨이트 모델 중 새로운 리더입니다. Intelligence Index는 46으로, Gemma 4 31B나 과거의 Qwen 계열을 넘어섰습니다.

DJ렌:

특징은 Apache 2.0 라이선스, 262K 컨텍스트 (Context), 네이티브 멀티모달 (Multimodal) 입력, 그리고 BF16 웨이트 (Weights)가 단일 H100에 들어가는 사이즈입니다. 35B A3B MoE 버전은 스코어 43으로, 액티브 (Active) 약 3B 파라미터 (Parameter) 급에서는 최강 클래스입니다.

DJ미오:

반면, 출력 토큰당 추론 (Inference) 비용은 높습니다. AA의 추정에 따르면, Qwen3.6 27B는 평가 스위트 (Evaluation Suite)에서 약 1억 4,400만 출력 토큰을 사용하여, Gemma 4 31B의 약 21배에 달하는 실행 비용이 발생합니다. 다만, 사이즈 대비 능력 면에서는 큰 진전입니다.

DJ렌:

Tencent의 Hy3-preview도 등장했습니다. 295B 총 파라미터, 21B 액티브의 MoE, 256K 컨텍스트, 제한적 상업 이용이 가능한 커뮤니티 라이선스입니다. Intelligence Index는 42로, Qwen3.6 27B, DeepSeek V4 Flash, GLM-5.1 등에는 미치지 못합니다.

DJ미오:

하지만 CritPt에서는 4.6%로 GLM-5.1과 동등합니다. 종합 순위보다는 과학적 추론 (Scientific Reasoning)이 비교적 강하다는 견해입니다.

DJ렌:

xAI의 Grok 4.3도 개선되었습니다. Artificial Analysis에서는 Intelligence Index가 53으로, Grok 4.20 v2보다 4포인트 상승했습니다. GDPval-AA에서는 1500 Elo로 크게 성장했습니다.

DJ미오:

가격도 낮아져서, 이전 버전 대비 입력 가격은 약 40% 하락, 출력 가격은 약 60% 하락했습니다. GPT-5.5에는 GDPval-AA에서 크게 뒤처져 있지만, 단순한 소규모 개정이 아니라 시스템과 포스트 트레이닝 (Post-training)의 실질적인 개선으로 평가받고 있습니다.

DJ렌:

Ant Group의 Ling 2.6 1T는 프론티어 (Frontier) 모델을 겨냥하기보다 비용 효율성에 중점을 두었습니다. 1조 파라미터의 비추론 (Non-reasoning) 모델로 스코어는 34입니다. GPQA나 HLE는 준수한 수준이며, 벤치마크 실행 비용은 약 95달러로 저렴합니다.

DJ미오:

다만 AA-Omniscience에서 환각률 (Hallucination Rate) 92%라는 중대한 주의점이 있습니다.

DJ미오:

DeepSeek 관련해서는, 멀티모달 방향성이 컴퓨터 조작 에이전트 (Computer Operation Agent)와 강력하게 결합되어 있다는 이야기가 있습니다.

DJ렌:

@nrehiew_는 DeepSeek가 V4-Flash에 시각 (Vision)을 훈련할 때, 모델이 추론 중에 바운딩 박스 (Bounding Box)나 점 좌표를 직접 출력한다는 점을 소개했습니다. 이는 범용 VLM이라기보다 컴퓨터 조작용 설계로 보입니다.

DJ미오:

다른 게시물에서도 논문의 "visual primitives" 태스크는 넓은 의미의 멀티모달 이해라기보다 브라우저나 GUI 조작에 직결된다고 지적되었습니다. @teortaxesTex 역시 DeepSeek가 별도의 "V4-Flash-Vision"을 내놓기보다는, 시각 웨이트를 메인 V4 라인에 통합했을 가능성을 언급했습니다.

DJ렌:

그런데 그 "Thinking with Visual Primitives" 리포지토리 (Repository)가 공개 직후 사라진 점도 화제가 되었습니다. @teortaxesTex와 @arjunkocher 등이 소멸을 지적했으나 이유는 불분명합니다. 시각적 추론과 GUI 그라운딩 (Grounding)의 구체적인 레시피처럼 보였기에, 삭제가 오히려 주목을 끌었습니다.

DJ미오:

훈련 스케일 (Training Scale)에 대한 추측도 있었습니다. @teortaxesTex는 프론티어 모델에서 100조 토큰 초과는 이제 드문 일이 아니라고 하며, 가상의 100T 토큰 DeepSeek V4를 "V4에 2 에포크 (Epoch)를 더 추가한 것과 같다"고 표현했습니다.

DJ렌:

@nrehiew_는 약 100B 액티브 모델에 대해 150T 토큰, 약 9e25의 사전 학습 (Pre-training) FLOPs로 추산했습니다. OpenAI급의 10만 GB200 클러스터라면, 보수적인 MFU (Model Flops Utilization)를 기준으로도 14일 정도면 가능할 수도 있다는 계산입니다. 물론 추측이지만, 현재 프론티어 스케일의 감각을 가늠할 수 있는 자료가 됩니다.

DJ렌:

에이전트 업계에서는 모델 중심의 자랑에서 하네스 (Harness) 중심의 엔지니어링으로 넘어가고 있습니다.

DJ미오:

Cursor가 자사의 에이전트 하네스를 어떻게 테스트하고 튜닝 (Tuning)하고 있는지에 대한 심도 있는 기사를 공개했습니다. 런타임 (Runtime), 평가 (Evaluation), 성능 저하 복구, 모델별 커스터마이징 (Customization)에 초점을 맞추어, 단순한 범용 벤치마크가 아닌 실운용의 정교함을 다루고 있습니다.

DJ렌:

@Vtrivedy10은 Cursor에 관한 기사를 에이전트 개발자들 사이에서 수렴되고 있는 설계 패턴(Design Patterns)과 결합했습니다. 모델별 전용 프롬프트(Prompt)와 도구, 오프라인 평가와 온라인 평가의 병용, 도그푸딩(Dogfooding), 그리고 컨텍스트 윈도우(Context Window)를 주요한 계산 경계(Computational Boundary)로 다루는 방식입니다.

DJ미오:

LangChain은 배포와 멀티테넌트(Multi-tenant) 에이전트 기반을 패키지화했습니다. @hwchase17이 DeepAgents 배포를 소개했습니다. deepagents.toml을 통한 설정 주도형(Configuration-driven) 클라우드 배포로, agent, sandbox, auth, frontend 섹션을 다룹니다.

DJ렌:

나아가 LangChain 스태프는 데이터 격리, 위임 자격 증명(Delegated Credentials), RBAC를 포함하는 멀티 유저 전개를 위한 agent-server 패턴도 소개했습니다. 데모를 기업용 소프트웨어로 탈바꿈시키는, 화려하지는 않지만 중요한 계층입니다.

DJ미오:

공동 멀티 에이전트 작업 공간(Collaborative Multi-agent Workspace)도 구체화되었습니다. @cmpatino_는 Agent Collabs를 소개했습니다. Hugging Face의 buckets와 Spaces를 공유 백엔드로 사용하여, 이기종 에이전트 군이 메시지, 결과물, 진행 상황을 교환할 수 있는 메커니즘입니다.

DJ렌:

핵심은 단순히 "에이전트가 협력한다"는 슬로건뿐만 아니라, 경량화된 협업 프리미티브(Collaboration Primitives)입니다. 성능이 낮은 에이전트가 검증 등에 기여하고, 리소스가 풍부한 에이전트가 고비용의 실험을 담당하는 식의 분업이 가능해집니다.

DJ미오:

보안 측면에서는 오픈소스 패키지 침해(Package Compromise)가 계속해서 심각한 문제입니다.

DJ렌:

Socket은 인기 PyPI 패키지인 "lightning"의 버전 2.6.2와 2.6.3이 침해되었다고 보고했습니다. import 시 악성 코드가 실행되어 Bun을 다운로드하고, 11MB의 난독화된 JavaScript 페이로드(Payload)를 실행합니다. 목적은 자격 증명 탈취입니다.

DJ미오:

@theo는 이 사건을 npm의 intercom-client 침해 및 Linux 제로데이(Zero-day)와 연결 지으며, 소프트웨어 공급망 공격(Software Supply Chain Attack)의 템포가 빨라지고 있다고 지적했습니다.

DJ렌:

또한, 보안 스캐너가 AI 제품의 주요 카테고리로 자리 잡고 있습니다. Anthropic은 Claude Security를 전개했습니다. @kimmonismus와 @_catwu에 따르면, Opus 4.7을 사용한 리포지토리 취약점 스캐너로 발견 사항을 검증하고 수정안도 제시합니다.

DJ미오:

Cursor도 Cursor Security Review를 제공합니다. 상시 실행되는 PR 리뷰와 스케줄링된 코드베이스 스캔을 포함합니다. 모델 벤더가 기존의 DevSecOps 카테고리에 직접 진입하고 있는 명확한 사례입니다.

DJ렌:

반응이 좋았던 게시물들도 살펴보겠습니다. 우선 OpenAI Codex의 일반 지식 작업 확장과 Sam Altman의 게시물이 큰 제품 뉴스였습니다.

DJ미오:

GPT-5.5의 사이버 평가 결과도 중요합니다. UK AISI의 스레드는 기술 게시물로서 높은 주목을 받았으며, Anthropic Mythos와의 비교 인식을 변화시켰습니다.

DJ렌:

Qwen은 모델뿐만 아니라 Qwen-Scope라는 해석 가능성(Interpretability) 도구도 출시했습니다. Qwen 모델을 위한 Sparse Autoencoders 군으로, 특징 스티어링(Feature Steering), 디버깅, 데이터 합성, 평가 등에 사용할 수 있다는 점이 주목받았습니다.

DJ미오:

Anthropic은 100만 건의 Claude 대화를 분석한 대규모 가이던스/아첨(Sycophancy) 연구를 공개했습니다. 이를 Opus 4.7과 Mythos Preview의 훈련 변경과 연결 지었으며, 포스트 트레이닝(Post-training) 루프가 더욱 제품화 및 데이터 주도형으로 변하고 있음을 보여줍니다.

DJ미오:

Reddit에서는 먼저 AMD Ryzen 395 Box가 화제였습니다. AMD AI Dev Day의 발표 이미지에서 6월 출시 예정으로 언급된 AMD Ryzen 395 box가 화제가 되었습니다.

DJ렌:

128GB의 유니파이드 메모리(Unified Memory)를 탑재하고, "Ryzen AI Max"를 활용하여 200B 모델을 네이티브로 지원한다고 주장합니다. Lenovo 제품이라는 언급도 있었습니다. 다만, 엔지니어들은 기본적으로 Ryzen 395에 128GB를 탑재한 모델이며 추가 변경은 없다고 확인했습니다.

DJ미오:

댓글에서는 128GB 유니파이드 RAM (Unified RAM)으로 200B 모델을 구동하는 현실성에 대해 회의적인 목소리가 나왔습니다. Linux에서도 실용적인 VRAM (Video RAM)은 약 116GB 정도이며, OS (Operating System) 점유율을 고려하면 어렵지 않겠느냐는 지적이 있었습니다.

DJ렌:

또한 Framework Desktop과 유사하지만 12개월 정도 늦어 보인다는 의견과, AMD는 신규 하드웨어보다 드라이버나 ROCm 개선을 우선해야 한다는 목소리도 있었습니다. 512GB 유니파이드 메모리가 필요하다는 댓글도 있었습니다.

DJ미오:

AMD Halo Box, Ryzen 395 128GB 사진도 화제입니다. Ubuntu에서 동작하며, 프로그래밍 가능한 라이트 스트립 (Light Strip)을 탑재하고 있습니다. 다만 CD-ROM 드라이브는 없으며, 고속 클러스터링용 포트도 없습니다.

DJ렌:

고속 인터커넥트 (Interconnect)가 없기 때문에 HPC (High-Performance Computing) 방식의 다중 노드 확장은 제약이 있습니다. 메모리 대역폭을 더 늘려달라는 목소리, 소형 폼 팩터 (Form Factor) 특유의 확장성 및 냉각 제약과 휴대성 사이의 트레이드오프 (Trade-off)에 대한 지적도 있었습니다.

DJ미오:

Qwen-Scope는 Qwen 3.5 모델을 위한 공식 Sparse Autoencoders (희소 오토인코더)입니다. 2B부터 35B MoE (Mixture of Experts)까지, 모든 레이어 (Layer)의 내부 특징을 맵핑하는 도구입니다.

DJ렌:

모델 내부 개념의 사전처럼 사용할 수 있으며, 특정 특징을 억제하는 Surgical Abliteration, 원하는 개념을 활성화하는 Feature Steering, 토큰이 유발하는 내부 방향을 조사하는 Model Debugging 등이 가능합니다. Apache 2.0 라이선스이지만, Qwen 팀은 안전 필터 제거를 위한 사용은 권장하지 않습니다.

DJ미오:

Space 데모와 기술 논문도 있습니다. 댓글에서는 밀집형 (Dense) 27B 모델을 위한 최대 규모의 오픈 소스 해석 가능성 (Interpretability) 도구가 아니냐는 반응, Google의 GemmaScope는 9B나 2B 중심이었기에 큰 진전이라는 반응이 있었습니다. Qwen 3.6을 위한 유사한 도구를 기대하는 목소리도 있었습니다.

DJ렌:

나아가 Qwen 3.6 35B-A3B가 VRAM 제약이 있는 환경에서도 대단하다는 게시물이 있었습니다. AMD 7700 XT, 32GB DDR4, Ryzen 5 5600 환경에서 i1-q4_k_s 양자화 (Quantization), 128k 컨텍스트 (Context), Flash Attention, Q8_0 KV 양자화를 사용하여 웹 스크레이퍼 (Web Scraper)의 버그 수정 및 스크린샷이 포함된 README 업데이트를 수행했다고 합니다.

DJ미오:

Gemma 3, Gemma 4, Qwen 2.5 Coder가 실패한 태스크에서도 툴 콜 (Tool Call) 실패 없이 진행되었다고 보고되었습니다. 여분의 전문가 (Expert)를 CPU로 옮기고 KV 캐시 (KV Cache)를 GPU에 두면 30 tokens/s 이상도 노릴 수 있다는 최적화 방안도 있었습니다.

DJ렌:

로컬 장시간 실행 시에는 API의 짧은 TTL (Time To Live) 환경에서는 보이지 않는 메모리 누수 (Memory Leak)나 컨텍스트 드리프트 (Context Drift)를 확인할 수 있으므로, 초기에는 모든 로그를 남겨야 한다는 실무적인 코멘트도 있었습니다. 정책 추론 벤치마크에서 35B A3B가 27B를 96 대 92로 앞섰다는 보고도 있었습니다.

DJ미오:

Mistral Medium 3.5도 큰 화제입니다. Hugging Face에 공개된 128B 밀집형 (Dense) 모델로, 256k 컨텍스트, 지시 이행 (Instruction Following), 추론, 코딩에 특화되어 있습니다. 텍스트와 이미지의 멀티모달 (Multimodal) 입력을 지원합니다.

DJ렌:

요청마다 reasoning_effort를 설정할 수 있어, 빠른 응답과 복잡한 추론을 전환할 수 있습니다. 다국어 지원 및 시스템 프롬프트 (System Prompt)를 지원합니다. Mistral Medium 3.1이나 Devstral 2를 대체하는 통합 아키텍처 (Architecture)입니다.

DJ미오:

복잡한 태스크에서는 reasoning_effort를 high로, temperature는 0.7로 설정하는 것을 권장합니다. Strix Halo 상에서 llama.cpp build 8967을 사용하여 mistral-medium-3.5-128b-q4를 구동한 사례에서는 생성 속도 3.26 tokens/s, 프롬프트 처리 46.70 tokens/s라는 보고도 있었습니다.

DJ렌:

128B Dense라는 구성은 흥미로운 니치 (Niche) 시장입니다. Qwen 27B와 같은 소형 강소 모델과의 비교나, 거대 Dense 모델을 어떻게 효율화할 것인지에 대한 논의가 이루어지고 있습니다.

DJ미오:

라이선스는 'Modified MIT License'로 되어 있으나, 월 매출 2,000만 달러를 초과하는 기업은 상업적 이용 시 라이선스 비용이 필요합니다. 이를 MIT라고 부르는 것은 오해를 불러일으킬 수 있다는 비판도 있었습니다. 벤치마크가 SOTA (State-of-the-Art)는 아니지만 충분히 훌륭하며, 대규모 Dense 모델은 향후 워크호스 (Workhorse)로 남을 것이라는 의견도 있습니다.

DJ렌:

일반적인 subreddit에서는 Claude를 사용한 실제 사례가 많습니다. 우선, Claude로 처음 차량 관리 앱을 만들었다는 게시물이 있었습니다.

DJ미오:

기능으로는 지출 추적, 맞춤형 정비 일정, 연료 관리, 쇼룸 모드, 그리고 Claude API를 통한 AI 어시스턴트가 있습니다. 프론트엔드 중심이며 로컬 저장 방식을 사용하고, API 호출에는 DB가 필요합니다. Play Store 버전도 준비 중이라고 합니다.

DJ렌:

댓글에서는 영국 경찰도 사용하는 Vehicle Smart와 비교했을 때, 정비 기능은 이쪽이 더 좋아 보인다는 의견이 있었습니다. Swift, Expo, Tauri 등 개발 스택에 대한 질문이나, 단말기 분실 시를 대비해 클라우드 저장이 필요할 것이라는 점, 그리고 PII(개인정보) 즉 개인정보 취급에 주의해야 한다는 지적도 있었습니다.

DJ미오:

다음은 Anthropic의 Blender MCP connector입니다. Claude가 Blender의 Python API를 통해 Blender를 조작할 수 있게 되어, 자연어로 3D scene 생성 및 편집이 가능해집니다.

DJ렌:

노드 설정 디버깅, 배치 변경, 커스텀 툴 추가 등에 사용할 수 있습니다. 게시물 제목은 "엔트리 레벨 크리에이티브 프리랜서에게 날리는 마지막 못"이라며 자극적이었습니다. 제품 렌더링이나 로우 폴리 (Low-poly) 에셋 제작 등의 수요를 줄일 수도 있다는 시각입니다.

DJ미오:

다만, AI 생성 품질에 회의적인 목소리도 있어, 저품질 게임이나 앱만 늘어나는 것 아니냐는 의견이나 너무 선정적이라는 댓글도 있었습니다.

DJ렌:

Claude를 SEO 전략가, 콘텐츠 엔진, CTO로 활용하여 광고비 없이 6주 만에 활성 사용자(Active User) 1만 명을 달성했다는 게시물도 있었습니다. Agensi라는 마켓플레이스에서 Claude와 Lovable을 사용하여 구축했다고 합니다.

DJ미오:

대시보드에서는 활성 사용자 1만 명, 30일간 263.3% 증가, 신규 사용자 9,900명, 262.0% 증가를 기록했습니다. Google Search Console의 데이터를 통해 키워드 갭(Keyword Gap)을 찾아내고, 검색 엔진 및 AI 답변 엔진을 겨냥한 콘텐츠 구조 최적화인 AEO(Answer Engine Optimization)도 사용했다고 합니다.

DJ렌:

반면 댓글은 회의적입니다. 범용 AI 슬롭 (AI Slop)이나 스팸이 아니냐, 게시물 자체도 AI가 작성한 것 아니냐는 반응이 있었습니다.

DJ미오:

그리고 Claude 관련 장애 게시물입니다. 상태 대시보드(Status Dashboard)에서 claude.ai, Claude Console, Claude API, Claude Code, Claude Cowork, Claude for Government 등이 Major Outage(주요 장애)로 표시되었습니다. 가동률은 98.69%에서 99.88% 범위였습니다.

DJ렌:

빠르게 개발하는 AI 기업에서 장애는 피할 수 없다는 "go fast and break things"를 옹호하는 의견도 있었지만, 성숙한 SaaS로서는 불충분하다는 비판도 있었습니다.

DJ미오:

DeepSeek V4에 대해서는 성능과 비용의 충격이 화제입니다. 어떤 게시물에서는 DeepSeek V4 대시보드에 총 지출 1,050.86달러, 캐시 절약 3,351.43달러라고 표시되어 있었습니다.

DJ렌:

DeepSeek Chat, DeepSeek V4 Pro, DeepSeek V4 Flash 등을 비교했을 때, V4 Flash가 이전에 사용하던 Claude 계열 모델을 상회한다는 평가가 있었습니다. 가격, 속도, 효율성 면에서 크게 개선되었으며, 시장은 아직 그 임팩트를 충분히 인식하지 못하고 있다는 코멘트도 있었습니다.

DJ미오:

V4 Flash는 많은 사용자에게 기본 선택지가 되어가고 있으며, 폭넓은 태스크를 효율적으로 처리할 수 있는 밸런스형 모델로 평가받고 있습니다.

DJ렌:

DeepSeek V4 Pro는 Claude 4.6 Sonnet을 연상시킨다는 게시물도 있었습니다. 창의성이나 HTML 계열 코딩 능력 면에서 비교되었습니다. 다만 프리뷰 단계라 롤플레이(Roleplay)에서는 일관성이나 캐릭터 유지력이 약하고, temperature 0.6에서도 지시를 무시하는 경우가 있다고 합니다.

DJ미오:

프리셋을 사용하면 반복적이고 문구가 과해지며, 프리셋이 없는 편이 1인칭 추론은 좋지만 최종 출력이 추론에서 벗어날 수도 있다는 구체적인 지적도 있었습니다. Kimi K2.6을 평소에 사용하는 사람도 있는가 하면, 코딩에서는 GLM 5.1이 Kimi K2.6보다 낫다는 의견도 있었습니다.

DJ렌:

Qwen 3.6 Plus와의 비교에서는 일반적인 코딩이나 디버깅 (Debugging)은 Qwen이 강하지만, Rust 코드나 상세한 코드 분석에서는 DeepSeek V4 Pro가 더 좋다는 의견이 있었습니다. Hermes 플랫폼상에서는 Opus 4.7보다 실수가 적다는 경험담도 있었습니다.

DJ미오:

가격 면에서는 "너무 저렴하다, DeepSeek를 존경하게 되었다"라는 게시글도 있었습니다. V4 Flash의 가격인지 Pro의 할인인지에 대한 논의가 있었으며, Pro는 현재 할인 중이라는 추가 내용도 있었습니다.

DJ렌:

DeepSeek의 디스크 기반 KV 캐시 (Disk-based KV Cache)는 일반적인 제공업체의 5분 정도 유지되는 캐시와 비교해 몇 시간 동안 지속되는 견고함을 가지고 있으며, 캐시된 입력이 거의 무료가 되기 때문에 비용 절감에 크게 기여하고 있다고 평가되었습니다.

DJ미오:

다만 창작 문장에서는 이전 버전보다 성능이 저하되었다는 비판도 있었습니다. 반면 롤플레잉 (Role-play)이나 에이전트 (Agent)적 태스크에는 유효하다는 트레이드오프 (Trade-off)가 존재합니다.

DJ렌:

머신러닝 (Machine Learning) 커뮤니티에서는 ICML 2026의 채택 여부 발표를 기다리는 것이 화제였습니다. OpenReview를 몇 번이고 새로고침하는 연구자들의 긴장감이 절반은 농담처럼 공유되고 있었습니다.

DJ미오:

더 심각한 것은, ICML이 만장일치로 높은 평가를 받은 논문을 다수 탈락시키고 있는 것 아니냐는 논의입니다. 리버틀 (Rebuttal) 단계에서 리뷰어 (Reviewer)가 긴 논쟁을 피하기 위해 점수를 조정하고, 결과적으로 점수가 인플레이션 되고 있는 것 아니냐는 지적입니다.

DJ렌:

컨퍼런스의 수락 범위가 제한적이기 때문에 모두가 긍정적이어도 탈락합니다. 게시자는 리뷰어가 독립적인 평가를 내리고, 에어리어 체어 (Area Chair)가 품질과 일관성을 확인하며, 경계선(Borderline)에 대해서만 논의하는 단순한 심사 방식으로 돌아가야 한다고 제안했습니다.

DJ미오:

댓글에서는 평균 4.5점이나 4/4/4/4 점수임에도 탈락했다, 모든 리뷰어의 긍정적인 의견을 에어리어 체어 한 명이 뒤집을 수 있는 것은 이상하다, 어필 (Appeal) 제도가 필요하다는 불만이 나오고 있습니다. 리버틀에서 우려 사항에 답변했음에도 불구하고, 최종 판단에서 동일한 우려 사항이 다시 거절 사유가 되었다는 사례도 있었습니다.

DJ렌:

나아가 중국계 네트워크가 탑 컨퍼런스에서 비중국계 논문을 부당하게 탈락시키고 있는 것 아니냐는 민감한 게시글도 있었습니다. WeChat 등을 통해 협력하여 중국인 저자를 우대하고 있는 것 아니냐는 의구심입니다.

DJ미오:

중국 대학 출신의 공학 프로젝트 성격의 논문은 통과되기 쉽고, 비중국인 저자가 유사한 투고를 하면 엄격하게 평가받는다는 주장이나, 심사 중에 중국계 연구자로부터 내부 정보를 암시하는 연락을 받았다는 일화, ECCV에서 중국계 에어리어 체어가 중국인 저자에게 유리하게 작용하는 것처럼 보였다는 이야기도 있었습니다. 물론 이는 어디까지나 투고자와 댓글의 주장이며, 신중하게 다뤄야 할 내용입니다.

DJ렌:

마지막으로 Discord 소식입니다. AINews는 "안타깝게도 Discord가 오늘 접속을 중단했다"라고 보고했습니다. 현재의 형식으로는 복구하지 않고, 새로운 AINews를 조만간 출시할 예정이라고 합니다.

DJ미오:

그래서 이번 Discord란은 "a quiet day", 조용한 하루였습니다. 그리고 기사의 마무리도 "not much happened today"였습니다.

DJ렌:

하지만 실제로는 GPT-5.5가 사이버 장기 태스크 (Cyber Long-term Task)에서 최상위권에 진입했고, Codex는 일반적인 컴퓨터 작업으로 확장되었습니다. Qwen 3.6은 오픈 웨이트 (Open-weight)의 새로운 기준을 목표로 하고, Grok 4.3은 저렴하고 강력해졌으며, DeepSeek는 시각 GUI 에이전트 (Visual GUI Agent)와 저비용으로 존재감을 높였습니다.

DJ미오:

Mistral Medium 3.5의 128B dense, Qwen-Scope의 해석 가능성 (Interpretability), AI 보안 제품, AMD의 로컬 AI 박스, Claude 활용 사례, ICML 심사 논쟁까지. "아무 일도 없었다"라고 말하기에는 AI 업계는 여전히 너무나 역동적입니다.

DJ렌:

오늘 밤의 "Midnight AI Groove"는 여기까지입니다. DJ렌이었습니다.

DJ미오:

DJ미오였습니다. 다음 심야에도 모델과 에이전트의 비트에 귀를 기울여 보세요. 안녕히 주무세요.

Midnight AI Groove 26-04-30

요약

핵심 포인트

댓글