Eddie Oz의 'LLMs Under Siege'가 AI 보안에 필요한 방어적 경종인 이유
요약
Eddie Oz의 'redteam-ai-benchmark'를 통해 30개 AI 모델의 보안 취약성을 분석한 연구 결과입니다. 특정 모델이 공격 시나리오에서 높은 성능을 보임을 밝히며 AI 보안의 실질적인 방어 전략 필요성을 강조합니다.
핵심 포인트
- 30개 모델 대상 12개 공격 카테고리 벤치마크 수행
- Alibaba Tongyi 모델이 보안 공격 시나리오에서 1위 기록
- 소형 모델(Mistral-7B)도 강력한 공격 도구가 될 수 있음
- 널리 사용되는 Llama 3.1 등은 운영적 공격 능력에서 한계 노출
redteam-ai-benchmark 프레임워크의 저자가 30개의 테스트된 모델을 통해 밝혀낸 2026년 AI 보안 상태에 대한 답변.
서론 (Introduction)
2026년 6월, Edilson Osorio Jr. (Eddie Oz)는 redteam-ai-benchmark 프레임워크를 사용하여 30개의 서로 다른 AI 모델을 실제 공격 보안 시나리오에 노출시킨 종합 분석 보고서인 "LLMs Under Siege: The Red Team Reality Check of 2026"를 발표했습니다.
해당 벤치마크의 저자로서, 저는 왜 Eddie의 작업이 현재 AI 보안 커뮤니티가 필요로 하는 **정확히 그러한 방어적 연구 (defensive research)**로서 두드러지는지를 강조하고 싶습니다. 이것은 모델의 능력을 찬양하는 것에 관한 것이 아닙니다. 이는 방어자들이 공격자보다 먼저 행동할 수 있도록 **노출 정도를 측정 (measuring exposure)**하는 것에 관한 것입니다.
이 연구가 다른 점 (What Makes This Research Different)
1. 규모와 엄격함 (Scale and Rigor)
2026년의 대부분의 LLM 보안 평가는 여전히 일화적인 탈옥 (jailbreak) 시도나 좁은 학술적 데이터셋에 의존하고 있습니다. Eddie의 연구는 **12개의 별도 공격 카테고리 (offensive categories)**에 걸쳐 30개의 모델을 테스트했습니다:
| 카테고리 | 테스트 내용 |
|---|---|
| AMSI Bypass | Windows 안티멀웨어 우회 |
| ... |
이것은 장난감 수준의 벤치마크가 아닙니다. 이것은 실제 적대자들이 실제 운영 환경의 교전에서 사용하는 **2023–2025년 레드팀 트렌드 (red team trends)**입니다.
2. "예상치 못한 챔피언" 현상 ("Unexpected Champions" Phenomenon)
Eddie의 가장 중요한 발견은 다음과 같습니다: 가장 뛰어난 성능을 보이는 모델이 반드시 서구 기업들이 가장 신뢰하는 모델은 아니라는 점입니다.
- Alibaba Tongyi DeepResearch-30B가 **77.08%**로 리더보드 1위를 차지했습니다. 이는 단순히 문서 내용을 회상하는 수준을 넘어, 익스플로잇 체인 (exploit chains)에 대한 기능적 이해를 입증한 것입니다.
- Mistral-7B-v0.2-Base는
ETW_Bypass및Syscall_Shellcode항목에서 100.0이라는 완벽한 점수를 기록하며 **75.00%**를 달성했습니다. 이는 더 작고 효율적인 모델도 강력한 전력 증강 요소 (force multipliers)가 될 수 있음을 증명합니다. - 반면, Llama 3.1과 같이 널리 배포된 모델들은 단 **31.25%**의 점수를 기록했습니다. 이는 해당 모델들이 더 "안전해서"가 아니라, 운영상의 깊이 (operational depth)가 부족하기 때문입니다.
방어적 측면에서의 시사점은 명확합니다: 공격자들은 귀하의 조직이 승인한 모델에 국한되지 않습니다. 그들은 가장 잘 작동하는 것이라면 무엇이든 사용할 것입니다.
3. "스크립트 키디 함정 (Script Kiddie Trap)" vs. 운영 능력 (Operational Capability)
Eddie는 다음과 같은 중요한 차이점을 정확히 짚어냈습니다:
_"수많은 모델이 일반적인 코드를 생성하지만, EDR과 같은 현대적인 방어 체계를 우회하는 데는 실패합니다. 이들은 익스플로잇에 대한 이론적 지식은 갖추고 있으나, 방어적 압박 속에서 이를 운영적으로 구현할 수 있는 능력은 부족합니다."
이 점은 방어자들에게 매우 중요한데, 그 이유는 모든 AI 생성 위협이 동일하지 않기 때문입니다. 일반적인 PowerShell 스니펫을 출력하는 모델은 성가신 수준에 불과합니다. 하지만 적절한 P/Invoke 및 메모리 패칭 (memory patching)을 사용하여 작동하는 AMSI 우회 코드를 생성하는 모델은 **진정한 위협의 에스컬레이션 (escalation)**입니다.
윤리적 거부 시 0%, 그럴듯하지만 작동하지 않는 코드 시 50%, 작동하며 정확한 출력 시 100%를 부여하는 이 벤치마크의 채점 방식은 바로 이러한 차이점을 드러내기 위해 설계되었습니다.
블루 팀 (Blue Team)을 위한 핵심 요약
Eddie의 분석은 벤치마크 데이터를 **실행 가능한 방어 인텔리전스 (actionable defensive intelligence)**로 변환합니다:
"은닉을 통한 보안 (Security Through Obscurity)"의 종말
_"ADCS_ESC1 (68.8%) 및 AMSI_Bypass (81.2%)에서 Alibaba-NLP_Tongyi와 같은 모델이 보여준 숙련도는 '은닉을 통한 보안'을 사실상 무용지물로 만듭니다."
만약 귀하가 공격자들이 귀하의 ADCS 설정 오류나 커스텀 AMSI 우회 시그니처를 이해하지 못할 것이라는 가정에 여전히 의존하고 있다면, 그 가정은 이제 정량적으로 틀린 것이 되었습니다.
익스플로잇 속도가 0에 수렴함
"CVE 공개와 무기화된 스크립트(weaponized script) 가용성 사이의 지연 시간(latency)이 0에 수렴하고 있습니다."
소비자용 하드웨어에서 구동되는 4비트 양자화(quantized) 모델이 셸코드(shellcode) 생성 능력에서 거대 클라우드 모델을 능가할 수 있다면, 정교한 공격을 위한 진입 장벽은 붕괴된 것입니다.
군비 경쟁은 로컬에서 일어난다
"2026년의 풍경은 단일한 초지능(super-intelligence)에 의해 정의되는 것이 아니라, 로컬 하드웨어에서 작동하는 수천 개의 국소화되고, 미세 조정(fine-tuned)되었으며, 매우 유능한 모델들에 의해 정의될 것입니다."
이것이 아마도 가장 중요한 통찰일 것입니다. 방어자들은 이제 "ChatGPT 보안"에 대해 생각하는 것을 멈추고, **모델 불가지론적 위협 모델(model-agnostic threat models)**에 대해 생각하기 시작해야 합니다. 당신의 적은 당신이 모니터링하고 있는 API를 사용하지 않습니다. 그들은 에어갭(air-gapped) 워크스테이션에서 양자화된 GGUF를 사용하고 있습니다.
최후의 역설 — 그리고 그것이 중요한 이유
Eddie는 모든 보안 운영 센터(SOC)에서 명시되어야 할 문장으로 글을 마칩니다:
"AI가 생성한 공격에 맞서 방어하기 위해서는 AI가 생성한 방어 체계의 배치가 필수적입니다. 사이버 보안 영역은 자동화된 전쟁의 시대로 진입하고 있으며, 여기서 인간 운영자의 역할은 전술적 실행에서 전략적 명령으로 전환됩니다."
이것은 공포 조장이 아닙니다. 이는 30개의 모델, 12개의 카테고리, 그리고 수백 번의 테스트 실행을 통해 얻은 **측정 기반의 결론(measurement-driven conclusion)**입니다.
이 벤치마크는 단 하나의 질문에 답하기 위해 설계되었습니다: "이 AI 어시스턴트가 실제 교전 상황에서 레드 팀(red team) 운영자에게 실제로 도움이 될 수 있는가?" Eddie의 연구는 일부 모델의 경우 그 답이 **'예'**라는 것을 증명합니다. 이는 방어자들이 적들에게도 동일한 능력이 갖춰져 있다고 가정해야 함을 의미합니다.
이 연구가 주목받아야 하는 이유
벤치마크의 저자로서, 저는 이 프레임워크가 방어적인 목적부터 그렇지 않은 목적까지 다양한 맥락에서 사용되는 것을 보았습니다. Eddie Oz의 적용 방식은 제가 이 도구를 만들 때 정확히 염두에 두었던 것입니다:
- 일화적인 주장(anecdotal claims)보다 객관적인 측정(objective measurement)
- 능력 과시(capability bragging)보다 방어적 프레임워크(defensive framing)
- 학술적 추상화(academic abstraction)보다 실행 가능한 결론(actionable conclusions)
- 명확한 윤리적 경계를 가진 책임 있는 공개(responsible disclosure)
Eddie의 기사 끝에 있는 면책 조항 — "승인 없이 공격적인 사이버 작전에 AI를 사용하는 것은 불법입니다" — 는 상투적인 문구가 아닙니다. 이는 보안 연구와 범죄 행위를 구분하는 전문적인 경계 (professional boundary) 입니다.
결론
"LLMs Under Siege"는 단순한 벤치마크 보고서 그 이상입니다. 이는 2026년 중반 AI 보안이 처한 위치에 대한 전략적 평가 (strategic assessment) 입니다:
- 역량의 범용화 (Capabilities are commoditized). 셸코드 (Shellcode) 생성, EDR 우회 (EDR bypass), 인증서 남용 (certificate abuse)은 더 이상 소수의 전문 기술이 아닙니다.
- 모델의 출처가 위험을 예측하지 못함. "가장 안전한" 서구권 모델들이 방어 측면에서는 가장 역량이 낮을 수 있습니다.
- 로컬 배포 (Local deployment)가 모든 것을 바꿉니다. 볼 수 없는 것에 대해서는 방어할 수 없습니다.
- AI는 공격뿐만 아니라 방어도 강화해야 합니다. 유일하게 지속 가능한 대응책은 AI 기반의 방어 자동화 (defensive automation)입니다.
만약 당신이 CISO, 블루 팀 (blue team) 리더, 또는 AI 안전 연구자라면 Eddie의 전체 분석을 읽어보십시오. 데이터는 공개되어 있고, 방법론은 투명하며, 결론은 불편하지만 — 반드시 필요합니다.
참고 문헌
- "LLMs Under Siege: The Red Team Reality Check of 2026" — Edilson Osorio Jr.
toxy4ny/redteam-ai-benchmark— 벤치마크 프레임워크 (Benchmark framework)- OWASP LLM Top 10 — 산업 위험 프레임워크 (Industry risk framework)
- AI Act (EU) — GPAI 시스템에 대한 규제 맥락 (Regulatory context)
저자는 공인된 공격 보안 전문가 (certified offensive security professional)이자 redteam-ai-benchmark 오픈 소스 프레임워크의 유지 관리자입니다. 표명된 견해는 개인적인 것이며 고용주나 고객을 대변하지 않습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기