Anthropic의 새로운 보안 도구는 에이전트 빌더들을 위한 경종이다

Anthropic이 Claude를 위한 보안 가이드라인 플러그인(security guidance plugin)과 셀프 호스팅 샌드박스(self-hosted sandbox)를 출시했습니다. 이는 단순히 또 하나의 점진적인 기능 업데이트가 아닙니다. AI 개발의 다음 단계가 에이전트 스택(agent stack)을 강화하는 데 있다는 명확한 신호입니다. 여기서 얻을 수 있는 교훈은 보안이 사후에 이루어지는 수동 검토 단계에서 벗어나, 자동화된 필수 첫 단계로 이동하고 있다는 것이며, 여러분은 이에 맞춰 시스템을 구축해야 한다는 점입니다.

방금 출시된 기능

Claude를 위한 두 가지 새로운 보안 중심 기능이 발표되었습니다: 보안 가이드라인 플러그인과 셀프 호스팅 샌드박스입니다. 플러그인은 개발자가 코드를 작성할 때 선제적인 취약점 스캐너(vulnerability scanner) 역할을 합니다. Anthropic은 이를 내부적으로 사용한 결과 풀 리퀘스트(pull requests)에서의 보안 관련 코멘트가 30-40% 감소했다고 보고했으며, 이는 전체적인 인간 코드 리뷰(human code review) 이전에 효과적인 경량화된 첫 단계 역할을 수행함을 시사합니다.

두 번째 구성 요소는 현재 퍼블릭 베타(public beta) 단계인 셀프 호스팅 샌드박스입니다. 이를 통해 Claude Managed Agents는 사용자의 개인 서버 연결을 포함하여 사용자가 제어하는 환경 내에서 작동할 수 있습니다. 이는 에이전트 실행 환경을 멀티 테넌트 클라우드(multi-tenant cloud) 환경에서 사용자의 자체 인프라로 이동시키는 것으로, 민감한 작업을 처리하는 데 있어 중대한 변화입니다.

이것이 여러분의 에이전트 스택에 중요한 이유

지난 1년 동안 에이전트를 구축하는 과정은 프롬프트 엔지니어링(prompt engineering)과 오케스트레이션 로직(orchestration logic)을 다루는 연습이었습니다. 보안은 종종 "당신은 유능한 어시스턴트이며 해로운 행동을 하지 않습니다"와 같은 시스템 프롬프트(system prompt)의 한 줄로 축소되곤 했습니다. 이러한 접근 방식은 취약하며 프로덕션 시스템(production systems)에는 불충분합니다.

Anthropic의 행보는 프롬프트 기반 보안(prompt-based security)에서 인프라 기반 보안(infrastructure-based security)으로의 필수적인 전환을 예고합니다. 로컬의 사용자 제어형 샌드박스는 에이전트가 생성한 코드를 안전하게 실행하기 위한 근본적인 프리미티브(primitive)입니다. 이는 에이전트가 기본적으로 호스트 시스템이나 네트워크에 접근할 수 없는 상태에서, 작업을 실행하고 파일과 상호작용하며 코드를 실행할 수 있는 격리된 환경을 제공합니다. 이는 진지한 엔터프라이즈 유스케이스(enterprise use case)를 위한 기본 요건입니다.

이 보안 플러그인 (security plugin)은 AI가 생성한 코드를 재정의합니다. 이를 마법 같고 불투명한 결과물로 취급하는 대신, 주니어 개발자가 작성한 다른 코드와 동일하게 취급합니다. 즉, 인간 검토자(human reviewer)에게 전달되기 전에 린팅 (linting), 스캐닝 (scanning), 그리고 일반적인 함정들에 대한 분석을 거쳐야 하는 대상으로 보는 것입니다. 이는 보안을 사후 대응적 (reactive) 방식이 아닌 선제적 (proactive) 방식으로 만듭니다.

워크플로 (workflow)에 보안 분석 통합하기

이 모델을 채택한다는 것은 에이전트의 코드 생성 및 실행 루프 (execution loop)에 보안 검사를 직접 구축함을 의미합니다. 목표는 문제가 실행되기 전에 이를 포착하는 것입니다. Anthropic 플러그인의 정확한 구현 방식은 공개되지 않았지만, 이것이 CI/CD 파이프라인이나 로컬 개발 환경에 어떻게 통합될지 상상해 볼 수 있습니다.

다음은 스테이징된 Python 파일에 AI 보안 스캐너를 사용하는 프리 커밋 훅 (pre-commit hook)의 가상 설정 예시입니다. 이것이 바로 새로운 도구가 가능하게 하는 자동화된 저마찰 (low-friction) 검사 방식입니다.

# .pre-commit-config.yaml
repos:
-   repo: local
...

이 접근 방식은 보안 검토의 첫 번째 단계를 자동화합니다. 이는 인간 전문가를 대체하는 것이 아니라, 손쉬운 문제들 (low-hanging fruit)을 걸러내어 시니어 엔지니어들이 더 복잡한 아키텍처 문제에 집중할 수 있도록 해줍니다. 그 결과, 더 빠르고 안전한 개발 사이클이 만들어집니다.

샌드박스 (sandbox)가 핵심이다

이번 발표에서 가장 중요한 부분은 사용자가 제어하는 샌드박스 (sandbox)입니다. 독점 코드, 고객 데이터 또는 비공개 인프라를 다루는 모든 조직에 있어, 외부 AI 모델이 임의의 코드를 실행하도록 허용하는 것은 불가능한 일이었습니다. 비공개 서버에 연결된 셀프 호스팅 (self-hosted) 샌드박스는 신뢰 모델을 뒤집습니다. 모델 제공자의 환경을 신뢰하는 대신, 사용자가 직접 환경과 그 경계를 정의하게 됩니다.

이는 내부 시스템에서 안전하게 작업을 수행할 수 있는 에이전트 (Agent)를 구축할 수 있는 능력을 열어줍니다. 예를 들어, 에이전트에게 진단을 수행하기 위해 스테이징 데이터베이스 (Staging Database)에 대한 샌드박스 (Sandboxed) 액세스 권한을 부여하거나, 코드를 리팩터링 (Refactor)하기 위해 내부 코드 저장소 (Code Repository)와 상호 작용할 수 있는 권한을 부여할 수 있으며, 이 모든 과정에서 데이터가 사용자의 통제를 벗어나지 않게 할 수 있습니다.

그래서 이것이 무엇을 의미하는가 (the so-what)

AI의 최전선은 더 이상 더 높은 벤치마크 점수를 가진 더 큰 모델을 만드는 것에만 국한되지 않습니다. 이제는 해당 모델을 사용하는 제품을 안전하고 신뢰할 수 있게 출시하는 데 필요한 전문가급 도구 (Professional-grade tooling)를 구축하는 것이 점점 더 중요해지고 있습니다. Anthropic은 에이전트 보안 (Agent security)을 어떻게 생각해야 하는지에 대한 명확한 템플릿을 제공하고 있습니다.

빌더 (Builder)로서 여러분의 초점은 이동해야 합니다. 흥미로운 작업은 새로운 에이전트 아키텍처 (Agent architectures)에 관한 것이라기보다, 에이전트를 프로덕션 (Production) 환경에서 실행하는 데 필요한 지루하지만 결정적인 인프라 (Infrastructure)에 관한 것입니다. 에이전트 실행을 어떻게 컨테이너화 (Containerize)할 것인가? 도구 사용을 위한 세밀한 권한 (Fine-grained permissions)을 어떻게 정의할 것인가? 생성된 코드에 대한 보안 분석 (Security analysis)을 어떻게 자동화할 것인가? 이것들은 에이전트를 데모 (Demo) 단계에서 배포된 제품 (Deployed products)으로 옮기기 위해 해결해야 할 문제들이며, 이번 최신 릴리스는 주요 연구소 중 하나가 이와 같은 방식으로 생각하고 있음을 보여줍니다.

출처 (Sources)

Anthropic Releases New Claude Sandbox, Security Guidance Plugin - SecurityWeek