Claude가 수천 개의 제로데이(Zero-Days)를 발견했습니다. 그 아키텍처의 실제 모습은 다음과 같습니다.

아무것도 거부하지 않고 실제 취약점을 찾아내는 보안 연구 모델은 탈옥(Jailbreak)이 아닙니다. 그것은 제품 결정(Product decision)이며, 이는 실제 운영 환경(Production context)에서 "안전한" AI가 실제로 무엇을 의미하는지에 대한 당신의 생각을 변화시킵니다.

이번 주에 두 가지 이야기가 올라왔는데, 이 둘을 함께 읽어보면 AI 보안 도구가 어디로 향하고 있는지에 대해 중요한 사실을 알 수 있습니다. 하나는 거절하는 대신 공격적 보안(Offensive security)을 수행하도록 사후 학습(Post-trained)된 모델에 관한 것입니다. 다른 하나는 Cloudflare가 AI 에이전트를 위한 일시적 신원 프리미티브(Ephemeral identity primitives)를 출시한 것에 관한 것입니다. 이 둘은 관련이 없어 보이지만, 사실 그렇지 않습니다.

실제로 일어난 일

Argus Red는 침투 테스트(Penetration testing)를 위해 특별히 사후 학습(Post-trained)된 모델을 기반으로 하는 CLI 도구를 출시했습니다. 헤드라인의 주장은 수천 개의 제로데이(Zero-days)를 발견했다는 것입니다. 더 흥미로운 주장은 아키텍처입니다. 위험해 보이는 모든 것을 거부하도록 일반 모델에 RLHF(Reinforcement Learning from Human Feedback)를 적용하는 대신, 그들은 반대 방향으로 나아갔습니다. 그들은 보안 전문가들이 공격적인 작업을 수행하는 것을 돕는 것 자체가 목적 인 모델을 학습시켰으며, 거부 범위를 해당 사용 사례의 범위를 벗어나는 사항들로 한정했습니다.

이와 별개로, Cloudflare는 AI 에이전트를 위한 임시 계정에 대한 세부 정보를 공개했습니다. 개념은 간단합니다. 에이전트가 구동되면, 범위가 지정된 수명이 짧은 Cloudflare 신원을 부여받아 작업을 수행하고, 계정은 만료됩니다. 메모리에 남아 있는 영구적인 자격 증명(Persistent credentials)도 없고, 교체하거나 유출될 수 있는 장기 토큰(Long-lived tokens)도 없습니다.

이 두 가지 일이 동시에 일어나고 있는 데에는 이유가 있습니다.

중요한 기술적 세부 사항

Argus Red 방식은 안전 전략으로서의 능력 축소 (capability narrowing)의 깔끔한 사례입니다. 범용 모델은 훈련 데이터 분포에 가능한 모든 사용자가 포함되어 있기 때문에, RLHF (Reinforcement Learning from Human Feedback)를 통해 광범위한 거부 (refusal)를 학습합니다. 반면, 사후 훈련된 전문 모델 (post-trained specialist model)은 실제 사용자 인구에 맞춰 무엇이 "해로운지"를 재정의할 수 있습니다. SQL 인젝션 (SQL injection) 페이로드를 묻는 침투 테스트 전문가 (pen tester)는 악의적인 행위자가 아닙니다. 이를 인지하고 그에 따라 행동하는 모델을 훈련하는 것은 안전성을 제거하는 것이 아니라, 안전성을 올바르게 교정 (calibrating)하는 것입니다.

과잉 거부 (over-refusal)라는 실패 모드는 실재하며 그에 따른 비용이 발생합니다. 만약 보안 도구 모델이 버퍼 오버플로 (buffer overflow)가 어떻게 작동하는지 설명하기를 거부한다면, 그 모델은 쓸모가 없습니다. argusred 팀은 의도적인 도박을 했습니다: 더 좁은 범위, 더 적은 거부, 그리고 더 높은 유용성입니다.

Cloudflare의 휘발성 계정 (ephemeral accounts) 부분은 다르지만 연관된 문제를 해결합니다. 에이전트가 보안 작업이나 정말로 민감한 작업을 수행할 때, 그들에게는 신원 (identity)이 필요합니다. 현재의 기본 방식은 사람들이 에이전트에게 장기 유지 API 키 (long-lived API keys)나 OAuth 토큰을 넘겨주는 것입니다. 이는 곧 재앙이 될 자격 증명 관리 (credentials management) 문제입니다. 단일 에이전트 세션으로 범위가 제한된 휘발성 계정은 폭발 반경 (blast radius) 문제를 해결합니다. 무언가 잘못되더라도 해당 자격 증명은 이미 만료되었기 때문입니다.

이들의 결합은 매우 중요합니다. 실제로 공격적인 작업 (offensive work)을 수행할 수 있는 전문 모델과, 해당 모델이 지속하거나 접근할 수 있는 범위를 제한하는 신원 기본 요소 (identity primitives)의 결합입니다. 이것이 바로 프로덕션 환경에서 보안 에이전트를 배포하기 위한 실제적인 아키텍처입니다.

빌더(Builders)를 위한 시사점

만약 여러분이 멀티 테넌트 (multi-tenant) AI 플랫폼을 구축하고 있다면, 거부 교정 (refusal calibration) 문제는 여러분이 답해야 할 과제입니다. 여러분의 사용자는 일반 대중이 아닙니다. 법률 회사를 위한 RAG (Retrieval-Augmented Generation) 파이프라인은 일반 챗봇과는 다른 거부 요구 사항을 가집니다. 보안 팀을 위한 코드 리뷰 에이전트는 고객 지원 봇과는 다른 요구 사항을 가집니다. 여러분은 단순히 능력을 추가하기 위해서가 아니라, 특정 사용자 인구에 부적절한 거부를 제거하기 위해서도 사후 훈련 (post-training) 또는 미세 조정 (fine-tuning)을 고민해야 합니다.

정체성(identity) 측면에서, 만약 여러분이 에이전트 시스템(agent systems)을 구축하고 있으면서 여전히 수명이 긴 서비스 계정 토큰(service account tokens)을 사용하고 있다면, Cloudflare의 일시적 계정 모델(ephemeral account model)이 여러분에게 필요한 사고 모델(mental model)입니다. 설령 Cloudflare를 사용하지 않더라도 그 원칙은 동일하게 적용됩니다. 에이전트는 단 하나의 작업을 수행하는 데 필요한 최소한의 자격 증명 표면(credential surface)만을 보유해야 하며, 해당 자격 증명은 만료되어야 합니다. 자격 증명 발급 계층(credential issuance layer)을 주체(principals)가 아닌 세션(sessions)을 중심으로 설계하십시오.

특히 MCP 커넥터 빌더들에게 이는 인증 계층(auth layer)에 대한 직접적인 행동 촉구입니다. MCP 세션은 이미 범위가 지정(scoped)되어 있습니다. 해당 세션을 뒷받침하는 자격 증명 또한 동일하게 범위가 지정되어야 합니다.

오늘 바로 할 수 있는 일

argusred.com에서 Argus Red CLI를 불러와 테스트 환경이나 DVWA 또는 HackTheBox와 같이 의도적으로 취약하게 만들어진 박스(box)를 대상으로 실행해 보십시오. 무엇을 찾아내느냐가 아니라, 무엇을 거부하고 무엇을 거부하지 않는지에 주목하십시오. 그 거부 경계(refusal boundary)는 여러분이 배우고 여러분 자신의 전문 모델 배포(specialist model deployments)에 적용할 수 있는 설계 결정 사항입니다.

AI 엔지니어링에서 실제로 중요한 내용을 매일 분석해 드리는 이 블로그를 팔로우하세요.

참고 문헌

Temporary Cloudflare accounts for AI agents - Hacker News
Show HN: We post-trained a model that pen tests instead of refusing - Hacker News
Introducing Claude Corps - Anthropic News

Claude가 수천 개의 제로데이(Zero-Days)를 발견했습니다. 그 아키텍처의 실제 모습은 다음과 같습니다.

요약

핵심 포인트

Claude가 수천 개의 제로데이(Zero-Days)를 발견했습니다. 그 아키텍처의 실제 모습은 다음과 같습니다.

실제로 일어난 일

중요한 기술적 세부 사항

빌더(Builders)를 위한 시사점

오늘 바로 할 수 있는 일

참고 문헌

댓글