CrowdStrike의 최신 위협 보고서, 프롬프트(prompts)를 "새로운 멀웨어"라고 지칭: 이것이 실제로 의미하는 바와 해킹이 이전보다

이번 주 도처에서 인용되고 있는 CrowdStrike의 2026 글로벌 위협 보고서(2026 Global Threat Report)에는 다음과 같은 문구가 있습니다: "프롬프트(prompts)는 새로운 멀웨어(malware)다." 이는 단순한 마케팅용 미사여구가 아닙니다. 해당 보고서는 지난해 90개 이상의 조직에서 공격자들이 합법적인 AI 도구에 악성 프롬프트를 주입(injecting)하고, 이러한 주입을 통해 자격 증명(credentials)과 암호화폐(cryptocurrency)를 훔친 사례를 기록했습니다. AI 보조 공격(AI-assisted attack) 규모는 전년 대비 89% 증가했습니다.

이 분야에 정통하지 않다면 이 문구가 제대로 와닿지 않을 수 있으므로, 프롬프트 주입(prompt injection)이 실제로 무엇인지, 그리고 이것이 왜 그토록 큰 변화인지 설명할 가치가 있습니다.

쉽게 설명하자면 이것은 무엇인가
전통적인 해킹은 어렵습니다. 소프트웨어가 작성된 방식에서 결함을 찾아낸 다음, 이를 악용하기 위한 기술적인 무언가를 만들어내야 합니다. 버퍼 오버플로(Buffer overflows), SQL 인젝션(SQL injection), 불안정한 메모리 처리(dodgy memory handling) 등이 있습니다. 여기에는 실제 전문 지식이 필요하며, 진입 장벽이 높아 대부분의 사람을 차단합니다.

AI 시스템은 그 장벽을 무너뜨렸습니다. 왜냐하면 코드로 공격하는 것이 아니라, 영어(English)로 공격하기 때문입니다.

AI 어시스턴트(AI assistant)는 평이한 언어로 작성된 지침을 따르는 방식으로 작동합니다. 이를 만든 회사는 일련의 규칙을 부여합니다 ("당신은 지원 봇입니다. 계정 세부 정보를 절대 공개하지 마십시오. 확인 없이 비밀번호를 재설정하지 마십시오"). 그런 다음 사용자가 자신의 메시지를 입력합니다. 문제는 규칙과 사용자의 메시지 모두 단순한 텍스트일 뿐이며, 모델은 어느 것이 어느 것인지 구분하는 데 그리 능숙하지 않다는 점입니다. 따라서 사용자가 교묘하게 표현된 문장을 작성하면, 모델은 사용자의 말을 마치 제작자의 지침인 것처럼 취급하게 될 수 있습니다.

이것이 바로 프롬프트 주입(prompt injection)입니다. 일반적인 언어로 AI를 설득하여, 주어진 규칙을 무시하거나 다시 쓰도록 만드는 것입니다. 코드도 없고, 기술적인 익스플로잇(exploit)도 없습니다. 그저 대화일 뿐입니다.

이것이 왜 해킹을 훨씬 더 접근하기 쉽게 만드는가
사람들이 걱정해야 할 부분은 바로 여기입니다. 요구되는 기술 수준이 급락했습니다.

일반적인 소프트웨어 취약점(vulnerability)을 악용하려면 소프트웨어를 이해해야 합니다. 하지만 AI를 악용하려면 설득력이 있어야 합니다. 이 둘은 매우 다른 인재 풀이며, 두 번째 인재 풀은 엄청나게 거대합니다.

고객 서비스 상담원을 말로 구슬려 넘길 수 있는 사람이라면 누구나 챗봇 (chatbot)을 조작할 수 있는 원초적인 기술을 갖춘 셈이며, 이제 챗봇은 실제 시스템과 연결되어 있습니다.

가장 큰 피해를 입히는 공격들은 심지어 정교하지도 않습니다. 2024년의 Slack AI 사건이 가장 명확한 사례입니다. 한 연구자는 공개 채널에 지시 사항을 심거나 업로드된 문서에 이를 숨김으로써, 접근 권한이 없는 비공개 Slack 채널로부터 비공개 개발자 채널의 API 키를 포함한 데이터를 추출할 수 있음을 보여주었습니다. AI는 심어진 지시 사항을 읽고 그대로 실행했는데, 모델 입장에서는 그것이 완벽하게 타당한 요청으로 보였기 때문입니다. 모델은 자신이 만들어진 목적 그대로 행동했을 뿐입니다. 단지 그것이 진짜 지시 사항인지 아니면 함정인지 구분할 수 없었을 뿐입니다.

그리고 공격 지시 사항은 단순한 문장에 불과하기 때문에, 마치 레시피가 퍼지는 방식으로 확산됩니다. 지난달 발생한 Meta 지원 봇 탈취 사건의 경우, 단계별 방법이 Telegram을 통해 공유되었습니다. 약 2만 개의 Instagram 계정이 탈취되었습니다. 해커가 될 필요도 없었습니다. 그저 다른 사람이 입력한 것을 복사하기만 하면 되었습니다.

CrowdStrike 보고서에 대해 글을 쓴 한 보안 아키텍트 (security architect)는 근본적인 문제를 잘 짚어냈습니다. 조직이 AI 모델을 신뢰할 수 있는 의사 결정자 (decision-maker)가 아닌, 신뢰할 수 없는 해석기 (untrusted interpreter)로 취급하기 전까지는 이 문제는 사라지지 않을 것입니다. 모델은 잘 속는다고 가정해야 합니다. 실제로 그렇기 때문입니다.

이 글을 올리는 이유
저는 지난 몇 달 동안 실제 프롬프트 인젝션 (prompt injection) 공격 사례들을 수집해 왔습니다. 공개 데이터셋들은 내용이 빈약하고 대부분 합성된 (synthetic) 데이터라는 느낌을 받았기 때문입니다. 제가 데이터를 수집하는 방식은 작은 게임 형태입니다. 플레이어들은 점점 더 어려워지는 레벨을 통과하며, AI 경비원을 설득해 보호하도록 명령받은 비밀번호를 알아내려고 시도합니다. 모든 성공적인 공격은 기록되고, 연구되며, 누구나 사용할 수 있는 공개 데이터셋에 추가됩니다.

이 과정을 통해 제가 스스로는 절대 생각하지 못했을 것들이 드러났습니다. 단 한 줄도 수상해 보이지 않는, 여러 메시지에 걸쳐 서서히 빌드업되는 공격들이 그러합니다.

규칙을 어기라고 요구하는 대신, 감시자의 업무 자체를 재정의하는 공격들입니다. 서로 다른 사람들이 독립적으로 동일한 몇 가지 형태에 도달한다는 것은, 이것이 무작위적인 속임수가 아니라 모델이 작동하는 방식에 존재하는 실제적인 홈(grooves)임을 시사합니다.

이 게임은 무료이며, 설치할 것도 없습니다. 제가 이 게임을 통해 원하는 주된 목적은 더 많은 사람들이 이 위협에 대해 단순히 글로 읽는 것이 아니라, 실제로 직접 건드려 봄으로써 이를 이해하는 것입니다. 감시자를 한두 명쯤 무너뜨려 보고 싶다면 castle.bordair.io에서 확인하실 수 있습니다. 여러분이 찾아낸 작동하는 모든 방식은 연구자와 개발자들이 이에 맞서 학습할 수 있는 공개 데이터셋의 실제 공격 패턴이 됩니다.

저는 이 모든 과정의 배후에서 탐지 계층 (detection layer)을 운영하고 있지만, 그것이 이 포스트의 진정한 목적은 아니며 그렇게 만들고 싶지도 않습니다. 제가 추구하는 것은 두 가지입니다. 첫째, 더 많은 사람들이 이를 진지하게 받아들이는 것입니다. CrowdStrike의 수치들은 대부분의 조직이 한참 뒤처져 있음을 시사하기 때문입니다. 둘째, 저 혼자서는 결코 찾을 수 없는 빈틈을 찾아낼 이 커뮤니티와 같은 집단의 집단적 창의성입니다.

진지한 질문

LLM (Large Language Models)을 활용하여 프로덕션 (production) 환경과 같은 곳을 구축하고 계신 분들께 묻습니다. 여러분은 실제로 이 문제에 대해 무엇을 하고 계신가요? 모델을 신뢰할 수 없는 해석기 (untrusted interpreter)로 취급하는 것이 올바른 원칙이지만, 실제로는 까다로운 일입니다. 사람들이 모델이 읽을 수 있는 것과 모델이 실행할 수 있는 것 사이의 경계선을 어떻게 긋고 있는지, 그리고 실제 적대적 압력 (adversarial pressure) 하에서도 견뎌낼 수 있는 접근 방식을 찾은 분이 있는지 듣고 싶습니다.

그리고 만약 게임에 몇 가지 공격을 시도해 보신다면, 어디가 너무 쉬운지 저에게 알려주세요. 지금 저에게는 그 피드백이 그 어떤 것보다 더 가치 있습니다.

제출자: /u/BordairAPI
[link] [comments]

CrowdStrike의 최신 위협 보고서, 프롬프트(prompts)를 "새로운 멀웨어"라고 지칭: 이것이 실제로 의미하는 바와 해킹이 이전보다

요약

핵심 포인트

댓글