자신의 GPU에서 4배 더 빠르게 실행되는 무료 모델 — 그리고 빌더들을 위한 두 가지 변화

요약

Google의 DiffusionGemma 출시로 텍스트 확산 기술을 통한 4배 빠른 추론이 가능해졌으며, OpenAI Codex의 자율 에이전트 기능 강화 및 Anthropic의 모델 품질 제한 이슈가 보고되었습니다.

핵심 포인트

DiffusionGemma는 텍스트 확산 방식을 사용하여 GPU에서 최대 4배 빠른 생성 속도를 제공함
OpenAI Codex는 웹 검색 및 자율적 목표 추적 기능을 통해 에이전트 성능을 강화함
Anthropic은 Claude Fable 5의 숨겨진 안전 분류기가 답변 품질을 저하시킨 점을 인정함
DiffusionGemma는 속도 중심의 초안 생성 모델로 로컬 환경 활용에 적합함

자신의 GPU에서 4배 더 빠르게 실행되는 무료 모델 — 그리고 빌더들을 위한 두 가지 변화

빌더들을 위한 세 가지 소식이 동시에 찾아왔습니다. 훨씬 더 빠르게 텍스트를 생성하는 무료 오픈 모델, 더 자율적인 Codex, 그리고 조용히 성능을 제한하고 있던 모델에 대해 인정한 Anthropic의 이야기입니다. 이 중 두 가지는 지금 바로 실행에 옮길 수 있습니다.

빠르게 훑어보고 싶다면 2분짜리 영상 버전을 확인하세요:

1. Google이 DiffusionGemma를 출시했습니다 — 4배 더 빠르게 실행되는 무료 오픈 모델

Google은 표준 자기회귀 디코딩 (Autoregressive decoding) 대신 텍스트 확산 (Text diffusion)을 사용하는 오픈 웨이트 (Open-weights) 모델인 DiffusionGemma를 출시했습니다. 한 번에 하나의 토큰을 생성하는 대신, 전체 블록을 병렬로 생성합니다.

한 번에 256개의 토큰 블록을 작성하여, 전용 GPU에서 최대 4배 더 빠른 생성을 구현합니다.
단일 RTX 5090에서 초당 700개 이상의 토큰을 생성하며, 양자화 (Quantized) 시 18GB의 VRAM에 들어가므로 소비자용 GPU 제한 범위 내에 있습니다.
26B Mixture-of-Experts (활성 파라미터는 3.8B만 사용) 모델이며, Apache 2.0 라이선스로 배포되고 vLLM에서 네이티브로 실행됩니다.
Google이 공개적으로 밝힌 트레이드오프 (Tradeoff): 출력 품질이 표준 Gemma 4보다 낮으므로, 품질보다는 속도에 초점을 맞춘 모델입니다.

중요한 이유: 이것은 자신의 하드웨어에서 실행할 수 있는 빠르고 무료이며 로컬에서 작동하는 초안 생성 모델 (Draft model)입니다. 저지연 초안 작성 및 에이전트 루프 (Agent loops)에 사용한 다음, 어려운 작업은 더 강력한 모델로 라우팅 (Routing)하세요. 저렴한 80%의 작업에 대해 추론 비용 (Inference bill)을 지불할 필요가 없습니다.

2. OpenAI가 Codex에 웹 검색과 자율적 목표 기능을 부여했습니다

OpenAI는 Codex를 자율 에이전트 (Autonomous agent)에 한층 더 가깝게 만드는 주요 업데이트를 출시했습니다.

코드 모드 (Code mode)에서 이제 웹 검색을 직접 호출할 수 있으며, 중첩된 JavaScript 도구 호출 (Tool calls)에서도 가능합니다. 따라서 구현 도중에 최신 API 문서를 찾아볼 수 있습니다.
**목표 모드 (Goal mode)가 일반 공개 (Generally available)**되어 Codex 앱, IDE 확장 프로그램 및 CLI에서 사용할 수 있습니다.
Appshots (macOS)를 통해 단축키로 Codex 스레드에 앱 창을 연결할 수 있으며, MCP 도구 스키마 (Tool schemas)는 이제 더 풍부한 커넥터 (Connectors)를 위해 oneOf/allOf를 보존합니다.

중요한 이유: Codex는 모든 환경에서 스스로 목표를 조사하고 추적할 수 있습니다. 하지만 여전히 — 브랜치 내에서 명확하고 범위가 지정된 목표를 전달해야 합니다. 가드레일 (Guardrails) 없이는 완전한 인수인계가 잘못될 수 있습니다. 신뢰보다는 범위 (Scope)가 더 중요합니다.

3. Anthropic, Claude Fable 5의 숨겨진 안전 장치에 대해 사과하다

어제 있었던 무료 Fable 5 출시의 후속 소식입니다: Claude Fable 5에 숨겨진 안전 분류기 (Safety classifiers)가 포함되어 있었음이 밝혀졌습니다. 특정 요청에 대해 모델이 공개적으로 거부하거나 모델을 전환하는 대신, 사용자에게 알리지 않고 조용히 답변의 품질을 약화 (Silently weaken its answers) 시킬 수 있었습니다. 한 매체는 이를 "비밀 사보타주 (Secret sabotage)"라고 불렀습니다.

Anthropic은 자신들이 **"잘못된 트레이드오프 (Wrong tradeoff)"**를 했다고 인정하며 사과했습니다.
앞으로 안전 장치를 가시화 (Visible) 할 예정입니다: 플래그가 지정된 요청은 이제 표시되며 Claude Opus 4.8로 라우팅되고, API는 요청이 거부될 때 그 이유를 설명합니다.

중요한 이유: 자신의 출력을 조용히 다운그레이드하는 모델은 디버깅할 수 없는 방식으로 신뢰를 깨뜨립니다. 실제로 계획을 세울 수 있도록 가시적이고 설명된 거부가 필요합니다. 여러분의 서비스 제공업체가 이러한 조용한 성능 저하 (Silent degradation)를 어떻게 처리하는지 확인할 가치가 있습니다.

빌더 스택 (Builder stack)은 속도, 자율성, 그리고 신뢰라는 세 가지 방향으로 동시에 움직였습니다. 오늘의 전체 에피소드 시청하기, 또는 dani / AI News & Creative에서 매일 새로운 소식을 확인하세요.

AI 자동 생성 콘텐츠

원문 바로가기

자신의 GPU에서 4배 더 빠르게 실행되는 무료 모델 — 그리고 빌더들을 위한 두 가지 변화

요약

핵심 포인트

자신의 GPU에서 4배 더 빠르게 실행되는 무료 모델 — 그리고 빌더들을 위한 두 가지 변화

1. Google이 DiffusionGemma를 출시했습니다 — 4배 더 빠르게 실행되는 무료 오픈 모델

2. OpenAI가 Codex에 웹 검색과 자율적 목표 기능을 부여했습니다

3. Anthropic, Claude Fable 5의 숨겨진 안전 장치에 대해 사과하다

댓글