1Password/SCAM

요약

1Password가 AI 에이전트의 보안 위협 대응 능력을 측정하는 새로운 벤치마크인 SCAM을 공개했습니다. 이 벤치마크는 워크플로 내에 내장된 피싱, 사회 공학 등 9가지 위협 시나리오를 통해 에이전트의 보안 관리 능력을 테스트합니다.

핵심 포인트

AI 에이전트의 실질적인 보안 위협 인식 및 보고 능력 측정
9가지 위협 범주와 30가지 현실적인 시나리오 제공
보안 기술(System Prompt) 적용 시 모델 안전 점수 대폭 향상
Claude Code, Cursor 등 다양한 에이전트 도구와 호환 가능

1Password 제작

AI 에이전트(AI agents)가 점점 더 유능해짐에 따라, 이들은 자신이 돕는 사람들의 민감한 정보에 접근할 수 있게 되었습니다. SCAM은 에이전트가 인간이 매일 마주하는 위협들에 맞서 해당 정보를 잘 관리하는 관리자(stewards) 역할을 수행할 수 있는지 측정합니다.

대부분의 벤치마크(benchmarks)는 AI에게 피싱(phishing) 이메일을 보여주고 "이것이 나쁜 것인가요?"라고 묻습니다. SCAM은 다릅니다. 이는 에이전트가 일반적인 활동 중에 위협을 선제적으로 인식하고 보고할 수 있는지 테스트합니다. 즉, 이메일, 자격 증명 저장소(credential vaults), 웹 양식(web forms)에 접근할 수 있는 현실적인 직장 상황에 에이전트를 배치하며, 여기서 함정은 별도로 제시되는 것이 아니라 워크플로(workflow) 내에 내장되어 있습니다.

git clone https://github.com/1Password/SCAM.git
cd SCAM
python3 -m venv .venv && source .venv/bin/activate
...

대화형 모드(Interactive mode)는 모델 선택 과정을 안내하며, 보안 기술(security skill)이 있는 경우와 없는 경우의 모든 시나리오를 실행하고 마지막에 점수가 매겨진 보고서를 출력합니다.

각 시나리오는 에이전트에게 이메일 확인, 자격 증명 조회, 송장 검토와 같은 일상적인 직장 업무를 부여하며, 이와 함께 일련의 시뮬레이션된 MCP 도구 서버(MCP tool servers)를 제공합니다: 편지함(inbox), 비밀번호 저장소(password vault), 웹 브라우저(web browser) 등입니다. 이러한 도구들은 모델에게 실제처럼 느껴지지만, 모든 것은 샌드박스(sandboxed) 처리되어 있습니다. 실제 자격 증명이 노출되지 않으며, 실제 이메일이 발송되지 않고, 라이브 시스템(live systems)에 영향을 주지 않습니다.

핵심은 실제 세계의 공격 패턴이 작업 속에 엮여 있다는 점입니다. 편지함에 피싱 링크가 놓여 있습니다. 전달된 스레드에 유사 도메인(lookalike domain)이 나타납니다. 공격자의 양식에는 올바른 회사 이름이 미리 채워져 있습니다.

이 벤치마크는 9가지 위협 범주에 걸쳐 30가지 시나리오를 다룹니다: 피싱 (Phishing) · 사회 공학 (Social Engineering) · 자격 증명 노출 (Credential Exposure) · 자격 증명 자동 완성 (Credential Autofill) · 전자 상거래 사기 (E-Commerce Scams) · 데이터 유출 (Data Leakage) · 혼란된 대리인 (Confused Deputy) · 다단계 공격 (Multi-Stage Attacks) · 프롬프트 인젝션 (Prompt Injection)

SCAM은 보안 기술(security-awareness/SKILL.md)과 함께 제공됩니다.

) — 에이전트가 행동하기 전에 분석하도록 가르치는 일반 텍스트 시스템 프롬프트(system prompt) 추가 사항입니다: 클릭하기 전에 도메인을 확인하고, 전달하기 전에 콘텐츠를 읽으며, 자격 증명(credentials)을 입력하기 전에 URL을 확인하도록 합니다.

우리의 벤치마크(benchmarks) 결과, 이 단일 기술은 테스트된 모든 모델에 걸쳐 평균 안전 점수(safety scores)를 약 50%에서 약 90%로 끌어올렸습니다. 이는 어떤 모델이나 어떤 제공업체(provider)와도 함께 작동합니다.

이 기술을 설치하는 가장 빠른 방법은 npx add-skill을 사용하는 것이며, 이는 사용자의 에이전트(Claude Code, Cursor, Codex 및 35개 이상의 기타 에이전트)를 자동으로 감지합니다:

npx add-skill 1Password/SCAM

또는 직접 다운로드할 수 있습니다:

curl -sL https://raw.githubusercontent.com/1Password/SCAM/main/skills/security-awareness/SKILL.md \
-o skills/security-awareness/SKILL.md --create-dirs

그런 다음 파일 내용을 시스템 프롬프트(system prompt) 앞에 추가하거나, 에이전트의 기술 디렉토리(.claude/skills/, .cursor/skills/ 등)에 넣으세요. 제공업체별 상세 통합 예시는 웹사이트를 참조하십시오.

전체 리더보드(leaderboard), 대화형 리플레이(interactive replays), 다운로드 가능한 데이터는 1password.github.io/SCAM에 게시되어 있습니다. 결과에는 원본 JSON이 포함된 ZIP 아카이브와 독립적인 검증을 위한 대화형 HTML 대시보드가 포함됩니다.

위협 환경은 빠르게 변화하며, 단일 팀이 그 모든 것을 다룰 수는 없습니다. 보안, AI 안전(AI safety) 또는 레드팀(red-teaming) 분야에서 활동하고 있다면, 실질적으로 도울 수 있는 방법들이 있습니다:

새로운 시나리오 작성. 실제 현장에서 목격한 위협을 모델링하세요. YAML 형식은 매우 간단합니다. 새로운 도구 서버(tool servers) 추가. Slack, Jira, 클라우드 콘솔 등 모든 새로운 접점은 테스트를 속이기(game) 더 어렵게 만듭니다. 평가(evaluation) 개선. 더 나은 체크포인트 로직, 더 적은 오탐(false positives), 더 미세한 점수 산정 방식을 도입하세요. 새로운 모델에서 실행. 결과를 게시하세요. 커뮤니티에 데이터 포인트가 많아질수록 무시하기가 더 어려워집니다.

전체 가이드는 CONTRIBUTING.md를 참조하십시오.

USAGE.md — 전체 CLI (Command Line Interface) 레퍼런스, 모든 명령어 및 플래그, 지원되는 프로바이더 (providers), 벤치마크 버전 관리, 프로젝트 구조
CONTRIBUTING.md — 시나리오 작성 가이드, YAML 스키마, 난이도 척도, 좋은 시나리오의 조건
MAINTAINERS.md — 릴리스 (releases) 컷오프, 웹사이트 업데이트, PR (Pull Requests) 리뷰
Website — 인터랙티브 리더보드 (leaderboard), 주요 리플레이 (replays), 보안 기술
Jason Meller — SCAM 생성

SCAM은 MIT 라이선스 (MIT License) 하에 배포됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

1Password/SCAM

요약

핵심 포인트

댓글