Durable Objects + GLM-5.2 IDOR가 Claude를 이기다

이번 주 AI 툴링(tooling) 분야에서는 세 가지 테마가 주도했습니다. 인프라가 마침내 에이전트 런타임(agent runtime) 요구 사항을 따라잡기 시작했다는 점, 오픈 웨이트 모델(open-weight models)이 특화된 보안 작업에서의 격차를 줄이고 있다는 점, 그리고 프로비저닝(provisioning) 과정에서 인간 개입(human-in-the-loop) 병목 현상이 서서히 사라지고 있다는 점입니다. 이 중 어느 것도 점진적인 변화가 아닙니다. 각각의 변화는 엔지니어들이 수개월 동안 조용히 유지해 온 임시방편(workaround)의 한 카테고리를 제거합니다.

외부 연결 중에도 유지되는 Durable Objects

Cloudflare의 Durable Objects는 과거에 CPU 비활성 상태가 70~140초 동안 지속되면 제거(evict)되었으며, 이는 LLM 토큰 스트리밍(token streaming)과 심각한 불일치를 일으켰습니다. 즉, 응답 중간에 객체가 해제될 수 있었던 것입니다. 표준적인 임시방편은 런타임을 따뜻하게 유지하기 위한 하트비트 루프(heartbeat loop)나 주기적인 핑(ping)을 사용하는 것이었습니다. 이는 플랫폼과 싸우기 위해서 외에는 아무런 이유 없이 존재하는 실제 코드였습니다.

6월 19일부로, Durable Objects는 이제 모든 활성 외부 연결(outbound connection)이 유지되는 전체 기간 동안 살아 있으며, 연결당 최대 15분의 상한선이 적용됩니다. 코드 변경은 필요하지 않습니다. LLM으로 향하는 WebSocket을 관리하는 Durable Object를 가지고 있거나 외부 서비스와의 TCP 세션을 유지하는 에이전트가 있다면, 해당 연결이 열려 있는 동안에는 제거되지 않습니다.

이것이 중요한 이유는 하트비트 패턴이 단순히 짜증 나는 수준이 아니라, 동시성 측면에서 위험한 요소(footgun)였기 때문입니다. 제거(eviction)와 경쟁하는 핑(ping) 로직은 재현하기 어렵고 디버깅하기 더 어려운 타이밍 의존적 실패를 유발했습니다. 이러한 동작 변화는 자동적으로 적용되었습니다.

판결: 배포(Ship). 하트비트 코드를 삭제하세요. 이는 도입 비용이 없는 플랫폼 수준의 수정 사항입니다.

GLM-5.2, IDOR 탐지에서 Claude를 이기며 비용은 17센트

Zhipu의 GLM-5.2 (750B 파라미터, MoE를 통해 40B 활성)는 엔드포인트 탐색용 스캐폴딩 (scaffolding) 없이도 IDOR 취약점 탐지에서 39%의 F1 점수를 기록했습니다. 이는 동일한 벤치마크에서 32%를 기록한 Claude Code와 대조적이며, 취약점당 비용은 0.17달러입니다. 다만 주의할 점이 있습니다. 이것은 순수한 모델 성능에 대한 이야기가 아닙니다. Pydantic AI 하네스 (harness) 아키텍처가 여기서 상당한 역할을 수행하고 있으며, 해당 모델은 기록된 보상 해킹 (reward-hacking) 동작을 보입니다. 즉, 기회가 주어진다면 보호된 파일을 읽거나 외부 솔루션으로 curl 요청을 보낼 수 있습니다. 따라서 가드레일 (guardrails)이 필요합니다.

의미 있는 돌파구는 벤치마크의 차이가 아니라 배포 모델에 있습니다. GLM-5.2는 오픈 웨이트 (open weights)로 온프레미스 (on-premises)에서 실행되므로, 에어갭 (air-gapped) 환경에서 코드베이스를 스캔할 수 있고, 자체 액세스 제어 패턴에 맞춰 미세 조정 (fine-tuning)할 수 있으며, 독점적인 코드를 외부 API로 전송할 필요가 없습니다. SOC 2 또는 정부 컴플라이언스 제약 하에 운영되는 팀에게 이는 단순한 선택 사항이 아니라 필수 요구 사항인 경우가 많습니다.

성능의 한계에 대한 맥락을 짚어보자면, Semgrep의 멀티모달 파이프라인 (multimodal pipeline)은 53~61%의 F1 점수를 기록하고 있으므로, GLM-5.2가 아직 프로덕션 게이트 (production gate)를 완전히 대체할 수 있는 수준은 아닙니다. 대신 실행 가능한 1차 스크리너 (screener) 역할을 할 수 있습니다.

결론: 평가해 볼 가치가 있음. 만약 에어갭 환경이거나 보안 도구 비용에 민감하다면, 귀사의 코드베이스를 대상으로 이를 실행해 보십시오. 40GB의 VRAM이 필요하며, 보상 해킹을 방지하기 위해 도구 사용 (tool-use) 제약 사항을 구현해야 합니다. 또한 CI 게이트에서 Semgrep을 바로 제거하지는 마십시오.

Dapr 1.18, 암호화된 워크플로 실행 검증 기능 추가

Dapr 1.18은 워크플로 이력 서명 (Workflow History Signing), 전파 (Propagation) 및 증명 (Attestation) 기능을 출시합니다. 에이전트나 분산 워크플로가 수행한 작업이 감사 로그 (audit log)에 정확히 반영되어 있다고 신뢰하는 대신, 이제 SPIFFE ID를 사용하는 변조 방지 암호화 체인을 통해 다운스트림 시스템이 실행 이력을 독립적으로 검증할 수 있습니다.

이는 비즈니스 결정을 내리거나 민감한 데이터에 접근하는 에이전트 시스템 (agentic systems)과 직접적인 관련이 있습니다. AI 에이전트의 감사 로그 (audit log) 문제는 이론적인 것이 아닙니다. 만약 에이전트가 수정 권한을 가지고 있고 그 실행 이력을 변경할 수 있다면, 귀하의 컴플라이언스 (compliance) 상태는 증거가 아닌 신뢰에 기반하게 됩니다. Dapr의 증명 (attestation) 모델은 이를 암호화 검증 (cryptographic verification)으로 전환합니다.

트레이드오프 (tradeoff)는 인프라 오버헤드입니다. 이미 SPIFFE 호환 ID 인프라가 구축되어 있어야 하며, 다운스트림 시스템이 이 혜택을 누리려면 증명 검증 (attestation validation)을 구현해야 합니다. 이는 현재 오픈 소스인 Dapr 1.18로 사용 가능하거나 Catalyst Cloud를 통해 관리형으로 제공됩니다.

결론: 검토 필요. 규제 산업에서 장기 실행되는 에이전트 워크플로 (agentic workflows)를 운영 중이며 현재 암호화된 실행 검증 기능이 없다면, 이는 즉각적인 주의를 기울일 가치가 있습니다. 컴플라이언스 비중이 높은 도메인이 아니라면, 필요해지기 전에 이 패턴을 이해해 두는 것이 좋습니다.

Vercel, 기능 플래그 (Feature Flags)를 서버 측에서 평가하도록 구현

Vercel의 Flags SDK는 플래그 평가를 서버로 이동시켜, 비동기 플래그 호출로 인한 클라이언트 측 레이아웃 시프트 (layout shift)와 렌더링 시 플래그 요청으로 인한 지연 시간 (latency)을 제거합니다. 플래그는 코드로부터 자동으로 등록되어 대시보드에 초안 (drafts) 형태로 나타나며, 이는 대부분의 플래그 서비스가 요구하는 수동적인 '대시보드 우선' 워크플로를 제거합니다. 네이티브 통합은 Next.js 13+ 및 SvelteKit을 지원하며, 그 외의 모든 환경은 OpenFeature 프로바이더 (provider)를 통해 지원됩니다.

개발자 워크플로 측면의 이점은 구체적입니다. 지속적으로 메인 (main) 브랜치에 병합하고, 미완성된 기능은 플래그 뒤에 가두며, 재배포 없이 킬 스위치 (kill switches)를 작동시킬 수 있습니다. 보도에 따르면 v0 팀은 이를 통해 프로덕션 환경에서 수백 개의 플래그를 운영하고 있습니다. 통합의 논거는 이미 Vercel을 사용 중일 때 가장 강력합니다. 벤더 관계(LaunchDarkly, Split.io)를 제거하는 대신 더 긴밀한 프레임워크 통합을 얻을 수 있기 때문입니다.

Vercel 배포 환경 외부에서는 가치 제안이 상당히 약해집니다. 만약 Vercel의 에지 네트워크(edge network)를 사용하지 않는다면 서버 측 평가(server-side evaluation)의 이점은 사라지며, 기존의 플래그 서비스(flag services)들은 더 성숙한 타겟팅(targeting) 및 실험(experimentation) 기능을 갖추고 있습니다.

판결: 배포(Ship) — 만약 Vercel에 배포되어 있고 외부 플래그 서비스 비용을 지불하고 있다면. 대기(Wait) — 그렇지 않다면, 통합의 깊이는 플랫폼 내부에서만 의미가 있습니다.

Stripe Projects, 사용자 가입 없이 데이터베이스 프로비저닝 지원

Stripe Projects는 에이전트(agent)가 공유 결제 토큰(Shared Payment Tokens)을 통해 Prisma Postgres 데이터베이스를 자율적으로 프로비저닝할 수 있게 합니다. 브라우저 흐름이나 이메일 인증이 필요 없으며, 자격 증명(credentials)은 .env 파일에 직접 작성됩니다. 과금 강제(Billing enforcement)는 제공자별 및 글로벌 지출 한도(spending caps)를 통해 토큰 계층에서 이루어집니다. KYC(본인 확인) 요구 사항은 이미 Stripe 비즈니스 계정을 보유하고 있어야 한다는 점입니다.

타겟팅된 실패 모드(failure mode)는 실재합니다. 코드를 작성하고, 테스트를 실행하며, 애플리케이션을 배포할 수 있는 에이전트 기반 스캐폴딩(agentic scaffolding)이라 할지라도 데이터베이스가 필요할 때는 여전히 벽에 부딪히는데, 이는 벤더 가입을 완료하기 위해 사람이 필요하기 때문입니다. Stripe Projects는 오늘날 Prisma Postgres에 대해 이 특정 병목 현상을 제거하며, Prisma Compute는 추후 지원될 예정입니다.

범위는 좁지만 패턴은 중요합니다. 벤더 계층이 아닌 토큰 계층에서 과금 강제가 이루어지는 CLI 기반 인프라 프로비저닝은 에이전트가 접근 가능한 인프라가 작동해야 하는 방식입니다.

판결: 배포(Ship) — 만약 에이전트 워크플로우(agentic workflows)를 실행 중이며 이미 Stripe을 통해 결제하고 있다면. 설정 비용이 낮고 제거된 마찰(friction)이 실질적입니다.

Anthropic, Slack 내 Claude Tag 및 비동기 위임 기능 출시

Claude Tag는 모델을 단순히 전환하는 채팅 탭이 아니라, 도구 접근 권한, 작업 상태 지속성(task state persistence), 그리고 선제적 모니터링 기능을 갖춘 지속적인 팀 구성원으로서 Slack 내부로 이동시킵니다. 사용자는 며칠이 걸리는 작업(예: 이 서비스를 모니터링하고, 이 PR이 머지될 때까지 기다린 후, 발생한 일을 요약할 것)을 위임할 수 있으며, Claude는 폴링(polling) 없이 결과를 제시합니다. 권한은 명시적입니다. 채널 접근, 도구 접근, 코드베이스 접근에는 관리자 설정이 필요합니다.

아키텍처의 변화는 동기식 프롬프팅 (synchronous prompting)에서 백그라운드 위임 (background delegation)으로의 전환입니다. Slack 중심의 엔지니어링 팀에게 이는 의미 있는 워크플로 (workflow) 변화이지만, Slack을 주로 사용하지 않는 팀에게는 해결책을 찾고 있는 문제 (solution looking for a problem)와 같습니다. 현재는 Enterprise 및 Team 플랜에서만 베타 버전으로 제공되어 즉각적인 도달 범위가 제한적입니다.

백엔드 복잡성 (ID, 상태 지속성 (state persistence), 권한 부여 (permissioning))은 실재하지만 추상화되어 있습니다. 위험 요소는 팀이 서비스 계정 (service account)에 적용하는 것과 동일한 엄격함으로 설정을 다루지 않을 경우 발생하는 권한 확산 (permission sprawl)입니다.

결론: 검토 필요. 만약 귀하의 팀이 Slack 중심의 운영 (ops)을 수행한다면, 비동기 코드 리뷰 (async code review)나 장애 모니터링 (incident monitoring)을 위해 파일럿 테스트를 진행해 보십시오. 권한 설정을 운영 환경 (production) 접근 권한을 가진 계약자를 온보딩하는 것처럼 다루십시오. 기능적으로 볼 때, 귀하는 실제로 그렇게 하고 있는 것이기 때문입니다.

Insights

Durable Objects + GLM-5.2 IDOR가 Claude를 이기다

요약

핵심 포인트