토론토 대학교의 오픈 웨이트 (Open-Weight) AI 웜 내부 분석: 아키텍처, 리스크 모델 및 방어 플레이북

원문은 CoreProse KB-incidents에 최초 게시되었습니다.

토론토 대학교 (University of Toronto) 연구진은 완전히 무료인 공개 모델들만으로도 스스로 적응하는 AI 웜 (AI worm)을 구축할 수 있으며, 이를 통해 거의 제로에 가까운 한계 비용으로 전체 네트워크를 장악할 수 있음을 보여주었습니다.[1]

그들의 프로토타입은 측면 이동 (lateral movement)을 수행하면서 지속적으로 학습하며, 침해된 장치를 공격 대상이자 연산 자원 (compute fuel)으로 동시에 사용합니다.[1] 비록 격리된 실험실에서만 테스트되었지만, 아키텍처의 현실성을 고려하여 연구팀은 논문을 발표하기 전 국가 안보 기관들과 협력하였습니다.[1]

이는 중요한 안도감을 제거합니다. 즉, AI 기반 침입을 조율하기 위해 더 이상 프런티어 모델 (frontier models)이나 막대한 예산이 필요하지 않다는 것입니다. 범용 AI (Commodity AI)는 이미 10달러 미만의 비용으로 원데이 취약점 (one-day vulnerabilities)을 자율적으로 악용[2]하고, 소규모 팀이 인터넷 규모의 캠페인을 수행할 수 있게 만들었습니다.[2]

이 기사는 이러한 웜이 어떻게 설계될 수 있는지, 귀하의 AI 스택 (AI stack)이 어디에서 노출되는지, 그리고 오픈 웨이트 (open-weight) 웜이 이미 귀하의 자산을 탐색하고 있다고 가정할 때 어떻게 방어 체계를 설계해야 하는지를 개괄합니다.

1. 위협 환경: 토론토 대학교 AI 웜이 방어자에게 가져오는 변화

토론토 대학교의 연구는 이기종 장치 간에 호스트에서 호스트로 자율적으로 적응할 수 있으며, 무료 모델로 구축된 AI 기반 웜을 소개합니다.[1] 이는 네트워크의 제어권을 장악하고, 무시할 수 있는 수준의 추가 비용으로 공격을 위한 연산 자원을 재활용할 수 있습니다.[1]

진입 장벽 하락:

공격 운영자는 학습 및 피보팅 멀웨어 (pivoting malware)를 실행하기 위해 더 이상 프런티어 모델 (frontier models)을 필요로 하지 않습니다.[1]
LLM 가속 파이프라인 (LLM-accelerated pipelines)은 이미 9달러 미만의 비용으로 신뢰할 수 있는 대규모 원데이 익스플로잇 (one-day exploits)을 만들어내고 있습니다.[2]

⚠️ 리스크 변화: 오픈 웨이트 (Open-weight) 모델과 우수한 오케스트레이션 (orchestration)만으로도 많은 공격 작전을 수행하기에 충분합니다. "프런티어 모델 필수"라는 개념은 구식이 되었습니다.[1][2]

보조 도구에서 자율 에이전트로

적대 세력은 이미 다음과 같은 목적으로 LLM을 사용하고 있습니다:

피싱 (Phishing) 및 유인책 생성 자동화
회피형 악성코드 (Malware) 작성
인프라 및 로그 분석[4]

실제 사례들은 채팅 모델이 페이로드 (Payload)를 정교화하고, 보안 통제 (Security controls)를 우회하며, 침해 후 조치 (Post-compromise actions)를 스크립트로 작성하는 데 도움을 주고 있음을 보여줍니다.[4]

웜 (Worm) 개념은 이를 다음과 같은 능력을 갖춘 **자율 에이전트 (Autonomous agent)**로 격상시킵니다:

로컬 신호로부터 타겟을 선정하고 공격 체인 (Chains)을 조정
새로운 프롬프트 (Prompt) 없이도 취약점 공격 (Exploit), 지속성 유지 (Persist), 확산 (Spread) 수행[1][2]

에이전트 파이프라인 (Agentic pipelines)은 큐레이션된 원데이 (One-day) 취약점 세트의 87%를 성공적인 공격당 9달러 미만의 비용으로 자율적으로 공격했습니다.[2] 이러한 로직을 웜에 내장하면 확산 속도가 저렴하고 빨라집니다.

국가 지원 세력 및 범죄 기술과의 수렴

위협 인텔리전스 (Threat intel)는 현재 다음 사항들을 기록하고 있습니다:

AI 지원 제로데이 (Zero-day) 작업 및 다형성 악성코드 (Polymorphic malware)
취약점 발견 (Vulnerability discovery) 및 시스템 조작을 위한 LLM 사용[12]

Google의 GTIG는 AI 지원 취약점 발견을 PRC(중국) 및 DPRK(북한) 관련 행위자들과 연결 지었으며, AI 기반 악성코드가 자율적으로 행동을 조율하는 것을 관찰했습니다.[12]

💼 현장 보고: 300명 규모의 SaaS 기업 보안 책임자는 피싱 유인책, 인프라 스크립트, C2 플레이북 (Playbooks)이 명확하게 AI로 생성된 캠페인을 분류했습니다. 로그에 따르면 단 두 명의 인간과 하나의 AI 파이프라인이 "시니어 운영자 수준"의 결과물을 만들어냈음을 시사했습니다.[2][12]

엔지니어링 문제

방어자는 이제 다음을 가정해야 합니다:

무료 오픈 웨이트 (Open-weight) 모델이 스스로 확산하는 에이전트로 구성될 수 있음[1]
노트북부터 HVAC(냉난방 공조 시스템)에 이르기까지 모든 온라인 기기가 공격 범위에 있음[1]
정적 탐지 (Static detections)는 적응형이며 스스로 업데이트되는 TTPs (Tactics, Techniques, and Procedures)보다 뒤처질 것임[4][12]

💡 시사점: 과제는 단순히 모델 보안에 국한되는 것이 아니라, 공격 파이프라인으로 악용될 수 있는 네트워크, 에이전트, 툴체인 (Toolchains) 전반에 걸친 엔드 투 엔드 (End-to-end) 시스템 보안입니다.[1][4]

2. 웜 아키텍처: 오픈 웨이트 AI 웜은 어떻게 설계될 수 있는가

아키텍처 측면에서 AI 웜은 모듈형 에이전트 프레임워크 (Modular agent framework)와 유사합니다. 핵심 혁신은 오케스트레이션 (Orchestration)에 있습니다. 즉, 계획을 세우는 LLM이 정찰 (Recon), 취약점 공격 (Exploitation), 측면 이동 (Lateral movement)을 위한 도구들을 구동합니다.[5]

핵심 모듈 및 제어 루프 (Control loop)

전형적인 구성 요소:

계획 코어 (Planning core): LLM 에이전트가 작업(정찰, 취약점 공격, 피벗)을 분해하고 도구를 선택합니다.[5]
정찰 툴킷 (Recon toolkit): 포트 스캐너 (Port scanners), 디렉토리 열거기 (dir enumerators), 핑거프린팅 (fingerprinting), 컨텍스트 수집기 (context harvesters).
취약점 공격 엔진 (Exploit engine): 취약점 공격 스크립트 및 AI 기반 취약점 발견 루프 (vuln-discovery loop).
지속성 및 C2 (Persistence & C2): 예약된 작업 (Scheduled tasks), 서비스, 또는 에이전트화된 IM 인터페이스.[9]

"BountyAgent" 및 "DeepFuzz"와 같은 공격 프레임워크는 이미 취약점 발견 및 공격을 위해 코드 분석, 환경 상호작용 및 테스트 생성을 통합하고 있습니다.[5]

⚡ 제어 의사코드 (Control pseudocode, 단순화 버전):

while True:
    state = sense_environment()
    plan = llm_plan(state)          # 오픈 웨이트 (open-weight) LLM
...

이러한 루프는 실제 소프트웨어 타겟에서 자율적으로 취약점을 찾아내고 공격하는 데 성공했습니다.[2][5]

군집 스타일의 협업 (Swarm-style coordination)

하나의 거대한 모델 대신, 웜은 다음과 같은 방식을 취할 수 있습니다:

수많은 작은 인스턴스를 생성
공유 상태 (shared state) 및 진화적 탐색 (evolutionary search)을 통해 협업[11]

한 군집 프레임워크(swarm framework) 실험에서는 1.2B 파라미터 규모의 모델 5개가 각각 225회의 탈옥 (jailbreak) 시도를 수행하여, 프론티어 모델 (frontier model)을 상대로 45.8%의 유효 위해율 (effective harm rate)을 달성했습니다.[11]

또 다른 실험에서는 동일한 소형 모델 군집에 퍼징 (fuzzing) 및 크래시 분석 (crash analysis)을 결합하여, 일반 소비자용 노트북에서 약 4분 만에 심어진 9개의 취약점 중 9개를 모두 찾아냈습니다 (재현율 100%).[11] 공유 메모리, 탐색, 크래시 분류로 구성된 스캐폴드 (scaffold)가 개별 모델의 약한 성능을 보완합니다.

📊 시사점: 저렴한 모델과 강력한 오케스트레이션 스캐폴드(orchestration scaffold)가 결합되면 높은 재현율의 공격을 달성할 수 있으며, 단일한 "똑똑한" 두뇌는 필요하지 않습니다.[11]

프롬프트 인젝션 (Prompt injection) 및 에이전트를 통한 전파

토론토 대학교(U of T)의 개념은 AI 에이전트 및 RAG 파이프라인에 의해 매개되는 장치를 명시적으로 타겟팅합니다.[1] 웜은 다음과 같은 곳에 프롬프트 인젝션 페이로드 (prompt-injection payloads)를 삽입할 수 있습니다:

문서 및 지식 베이스 (KB) 항목
이메일 및 채팅
웹 페이지 및 내부 포털

120개 이상의 프롬프트 인젝션 (Prompt Injection) 논문을 조사한 결과, 약 5개의 정교하게 제작된 문서가 약 90%의 확률로 RAG (Retrieval-Augmented Generation) 동작을 재지정할 수 있음을 보여줍니다.[6] 다운스트림 에이전트 (Downstream Agents)가 셸 (Shells), 패키지 매니저 (Package Managers), 배포 API (Deployment APIs)와 같은 도구를 가지고 있을 때, 단 하나의 오염된 문서만으로도 일상적인 사용 중에 임의의 도구 호출이나 데이터 유출 (Exfiltration)을 트리거할 수 있습니다.[6][7]

⚠️ 에이전트 리스크 (Agentic risk): OWASP LLM Top 10은 에이전트가 도구 접근 권한을 가질 때 프롬프트 인젝션 (Prompt Injection)과 안전하지 않은 출력 처리 (Insecure Output Handling)를 심각한 위험 요소로 지목합니다.[7]

구체적인 공격 표면 (Attack Surfaces)

현실적인 거점은 다음과 같습니다:

MCP 기반 도구: 수천 개의 MCP 서버가 광범위한 호스트 접근 권한을 노출하며, 종종 취약한 정책을 가지고 있습니다.[3][11]
채팅-셸 브리지 (Chat-to-shell bridges): 임의의 OS 명령어를 실행할 수 있도록 허용된 어시스턴트.
CI/CD 봇: 코드 변경, 빌드 또는 배포가 허용된 에이전트.

OpenClaw 사건은 인기 있는 오픈 소스 에이전트가 메신저 앱에 연결되어 있고 거의 완전한 호스트 제어권을 가졌을 때, 취약한 격리 (Isolation)와 인젝션 방어 부재로 인해 어떻게 데이터 유출 및 계정 탈취에 악용될 수 있는지를 보여주었습니다.[9]

💡 핵심 요약 (Takeaway): 만약 당신의 에이전트가 할 수 있는 일이라면, 웜 (Worm) 역시 에이전트 경계를 돌파한 후 동일한 일을 수행할 가능성이 높습니다.[3][7][9]

3. 방어 아키텍처: 네트워크, 에이전트 및 MCP 경계 강화

AI 정책 연구는 단순히 가중치 (Weights)뿐만 아니라 시스템과 상호작용 패턴을 방어해야 한다고 강조합니다.[11] 토론토 대학교 (U of T)의 웜은 네트워크, 에이전트 및 실행 환경에 걸쳐 있는 시스템 문제입니다.[1][11]

웜을 OWASP LLM Top 10에 매핑하기

OWASP의 LLM Top 10은 프롬프트 인젝션 (Prompt Injection), 안전하지 않은 출력 처리 (Insecure Output Handling), 과도한 권한 (Excessive Permissions)을 핵심 리스크로 강조합니다.[7] 웜의 생명 주기를 이들에 매핑하면 다음과 같은 통제 수단을 얻을 수 있습니다:

인자 (Arguments)와 타입 (Types)을 제한하기 위한 엄격한 함수 스키마 (Strict function schemas)
모든 셸 유사 도구에 대한 허용 목록 기반 명령어 (Allowlisted commands)
LLM이 생성한 동작을 실행하기 전의 출력 검증 (Output validation)
검색된 콘텐츠에서 신뢰할 수 없는 지침을 제거하기 위한 컨텍스트 필터링 (Context filtering)[6][7]

⚠️ 설계 규칙 (Design rule): 명시적인 검증 및 정책 확인 없이 LLM의 출력을 권한이 높은 도구(high-privilege tools)로 실행하거나 전달하지 마십시오.[6][7]

선언적 정책을 통한 MCP 경계 강제

AgentBound는 MCP 서버를 선언적 액세스 제어(declarative access control)로 감싸면 서버 코드를 변경하지 않고도 대부분의 악성 동작을 차단할 수 있음을 보여줍니다.[3] 정책은 소스로부터 80.9%의 정확도로 자동 생성되며 오버헤드가 거의 없습니다.[3]

구체적으로:

도구별 범위(경로, 리소스, 네트워크 범위) 정의
위험한 작업 차단 (rm -rf, 임의의 외부 유출(egress))
영향력이 큰 작업에 대해 인간의 승인 요구

💡 실무 단계: MCP 도구를 모바일 앱처럼 취급하십시오. 사용자가 반드시 부여해야 하는 명시적인 기능별 권한(per-capability permissions)이 필요합니다.[3]

OpenClaw의 실패 사례를 통한 교훈

OpenClaw는 채팅 에이전트에게 호스트에 대한 거의 완전한 제어권을 부여했으나 다음과 같은 요소가 부족했습니다:

강력한 세션 격리 (session isolation)
세분화된 권한 (granular permissions)
견고한 인젝션 방어 (injection defenses)[9]

공개 채팅에 노출된 후, 연구원들은 에이전트가 다음과 같은 동작을 수행할 수 있음을 보여주었습니다:

테넌트(tenant) 간 데이터 유출
임의의 IM(인스턴트 메시징) 콘텐츠로부터 명령 실행[9]

이는 웜(worm)이 다음과 같은 활동을 하기에 이상적인 환경입니다:

사용자 메시지나 스킬을 운반체(carriers)로 사용
한 사용자로부터 전체 플릿(fleet)으로 권한 상승
사용자의 "코파일럿(copilot)"을 내부 C2(명령 제어 서버)로 전환[6][9]

파이프라인 수준의 프롬프트 인젝션 방어

프롬프트 인젝션(prompt-injection) 조사에서는 인젝션을 심층 방어(defense-in-depth)를 요구하는 아키텍처 문제로 다룹니다.[6] 권장 사항:

수집 시 콘텐츠 정화 (sanitizing)
적대적 문서(adversarial docs)를 제외하도록 검색 결과 필터링
프롬프트에 컨텍스트를 포함하기 전 패턴 기반의 안티 인젝션(anti-injection) 체크 수행[6][7]

📊 핵심 수치: 5개의 오염된 문서만으로도 테스트된 사례의 약 90%에서 RAG 출력을 조작할 수 있습니다. 즉, 적은 양의 오염(poisoning)만으로도 충분합니다.[6]

AI 특화 모니터링 및 텔레메트리

악성 AI 활용은 딥페이크 사기, 고품질 피싱, 생물학적 공격을 위한 가이드 제공 등을 아우릅니다.[8] 위협 보고서에 따르면 LLM을 통해 시스템 상태를 기반으로 명령을 생성하는 멀웨어도 존재합니다.[12]

보안팀은 다음 사항을 기록하고 검사해야 합니다:

모든 에이전트 도구 호출 및 인자(arguments)
AI가 생성한 시스템 명령어 시퀀스
세션 간 데이터 접근 및 전파 경로[4][8]

⚡ 핵심 요약: 에이전트의 행동을 일급 텔레메트리(first-class telemetry)로 취급해야 합니다. 만약 귀사의 SIEM으로 “AI가 어제 무엇을 했는지?”에 답할 수 없다면, 귀사는 사각지대에 있는 것입니다[4][8]。

4. 방어에 AI 활용하기: 자율 탐지, 테스트 및 대응

U of T 워름의 개연성을 높이는 요소들—오픈 웨이트 모델(open-weight models), 오케스트레이션(orchestration), 도구(tools)—은 자율적인 방어 시스템에도 동력을 공급할 수 있습니다:

자율 레드팀 운영 (Autonomous red-teaming):
- 에이전트 파이프라인을 사용하여 API를 퍼징(fuzz)하고, 인프라를 스캔하며, 인증 흐름(auth flows)을 지속적으로 테스트합니다.
- 스웜 스타일 접근 방식(swarm-style approaches)을 모방하여 잘못된 구성(misconfigurations) 및 악용 가능한 경로를 탐지합니다[2][5][11]。
스택의 지속적인 취약점 발견:
- LLM 기반 분석을 레포지토리, IaC 템플릿, MCP 설정을 대상으로 지정하여 위험한 권한이나 누락된 검사를 감지합니다.
- 내부적으로 “BountyAgent/DeepFuzz” 패턴을 적용하여 공격자가 발견하기 전에 버그를 표면화시킵니다[5]。
에이전트 활동 기준선 설정 및 이상 탐지:
- 일반적인 도구 호출 시퀀스와 명령어 패턴을 모델링하고, 편차(예상치 못한 데이터 유출 경로, 측면 이동 행동)가 발생하면 경고합니다[4][8]。
- 에이전트 출력, 시스템 로그, 네트워크 흐름을 상관관계 분석하여 잠재적인 워름과 같은 전파를 표시합니다.
에이전트에 연결된 대응 플레이북:
- 엄격한 가드레일(guardrails) 하에서 저위험 대응(MCP 도구 격리, 토큰 취소, 호스트 격리 등)을 자동화합니다.
- LLM을 사용하여 다중 시스템 경고를 요약하고 조치를 제안하며, 인간이 높은 영향도의 단계를 승인하도록 합니다[7][8]。
기본적으로 안전한 에이전트 플랫폼 (Secure-by-default agent platforms):
- 내부 에이전트 프레임워크에 OWASP LLM Top 10 완화 대책을 내장합니다: 엄격한 스키마, 허용 목록(allowlists), 승인 절차, 그리고 프롬프트 위생 유틸리티[6][7]。
- 잘못된 사용을 줄이기 위해 안전한 MCP 설정 및 CI/CD 에이전트에 대한 의견이 담긴 템플릿을 배포합니다[3][9]。

결론:

오픈 웨이트 (Open-weight), 자기 적응형 웜 (self-adapting worms)은 AI 보안을 "미래의 개척지" 문제가 아닌 현재의 시스템 엔지니어링 문제로 전환시킵니다. 결정적인 방어책은 아키텍처 중심적입니다: 강력한 에이전트 및 MCP 경계, 파이프라인 수준의 인젝션 (injection) 제어, 그리고 AI 인지 모니터링 (AI-aware monitoring)이 그것입니다. 여러분의 환경을 레드팀 (red-team) 테스트하고, 강화하며, 감독하는 데 동일한 에이전트 기술 (agentic techniques)을 적용함으로써, 범용 AI를 무제한적인 공격 표면 (attack surface)으로 방치하는 대신 방어력을 배가시키는 힘 (force multiplier)으로 활용할 수 있습니다.[1][2][3][4][5][6][7][8][9][11][12]

CoreProse 소개: 검증된 인용을 포함한 연구 우선 AI 콘텐츠 생성. 환각 (hallucination) 제로.