Anthropic Mythos vs OpenAI GPT-5.5: '해킹 가능' 프런티어 모델은 사이버 보안의 시한폭탄인가?

Originally published on CoreProse KB-incidents

세계에서 가장 진보된 두 개의 거대 언어 모델(Large Language Models, LLMs)인 Anthropic의 Mythos와 OpenAI의 GPT-5.5가 기업에 도입되고 있습니다. 이는 생성형 AI(Generative AI)가 국가 지원 해킹(State-backed hacking)의 양상을 재편하고 있다는 정부의 경고가 나오는 가운데 이루어지고 있습니다.[1] 연구자들은 이러한 시스템을 단순한 생산성 도구가 아닌, 새로운 사이버 리스크의 "완벽한 폭풍(Perfect storm)"의 일부로 보고 있습니다.[1]

보안 책임자들에게 있어 트레이드오프(Trade-off)는 극명합니다:

업무를 계획하고, 도구를 작동하며, 코드를 배포하는 에이전트형 코더(Agentic coders)가 가져다주는 엄청난 이점.[2]
동일한 능력이 대규모 침입(Intrusions)을 자동화하는 데 사용될 경우 발생하는 엄청난 위험.

⚡ 이 기사는 과장된 광고를 걷어내고 Mythos 및 GPT-5.5급 모델이 공격적 보안(Offensive security)에 무엇을 변화시키는지, 그리고 방어자들이 지금 무엇을 해야 하는지를 파헤칩니다.[1][2]

1. 왜 "해킹 가능" LLM이 새로운 경보를 울리는가

보안 연구자들은 Mythos와 GPT-5.5를 사이버 위협 지형을 실질적으로 변화시키는 프런티어 모델(Frontier models)로 분류하며, 특히 이미 취약한 인프라 위에 이러한 모델이 결합될 때를 경계합니다.[1] 이러한 우려는 단순한 추측이 아닌 실제 공격자의 활동에 근거합니다.

OpenAI는 GPT-5.5를 다음과 같은 용도에 명시적으로 최적화합니다:

에이전트형 코딩(Agentic coding) 및 복잡한 컴퓨터 사용.
다단계 계획(Multi-step planning) 및 엔드 투 엔드(End-to-end) 작업 완료.[2]

"ETL 도구 구축"을 가능하게 하는 동일한 역량은 다음과 같은 작업도 지원할 수 있습니다:

노출된 서비스 열거(Enumerating exposed services).
백도어(Backdoors) 설치.
데이터 유출(Data exfiltration) 자동화.[2]

📊 공개된 보고서에 따르면 중국, 러시아, 이란, 북한의 APT 그룹들이 이미 생성형 AI를 다음과 같은 용도로 사용하고 있음을 보여줍니다:

기술적 정찰(Technical reconnaissance).
멀웨어(Malware) 및 로더(Loader) 개발.
사회 공학(Social engineering) 및 영향력 행사 작전(Influence operations).[3]

주요 기반 시설(Critical infrastructure)의 경우, AI로 강화된 공격자는 다음과 같은 일을 할 수 있습니다:[4]

방대한 텔레메트리(Telemetry) 스트림 처리.
자산 인벤토리(Asset inventories) 자동 정리.
맞춤형 멀웨어 변종(Malware variants)을 빠르게 생성.

💡 벤더들이 이러한 시스템을 "더 많은 업무를 수행하는" "에이전트 (agents)"로 브랜딩함으로써, 그들은 암묵적으로 가장 어려운 질문을 던지고 있습니다. 즉, 정당한 워크플로우 자동화 (workflow automation)와 고도화된 침입을 위한 플러그 앤 플레이 방식의 오케스트레이션 (plug-and-play orchestration) 사이의 경계는 어디인가 하는 점입니다.[1]\lbrack2]

2. Mythos와 GPT-5.5 내부: 역량, 안전장치, 그리고 현실적인 해킹 위험

OpenAI는 GPT-5.5를 지금까지 중 "가장 똑똑하고 직관적인" 모델로 설명하며, 다음과 같은 분야에서 주목할 만한 발전을 이루었다고 밝혔습니다.[2]

에이전트 기반 코딩 (Agentic coding) 및 컴퓨터 사용 (computer use).
지식 노동 (Knowledge work) 및 초기 과학 연구.
GPT-5.4 대비 복잡한 개발 작업에서의 속도 및 비용 효율성.

Mythos는 문서화가 덜 되어 있으나, 전문가들이 사이버 위험을 높이는 프런티어 시스템 (frontier systems)을 논의할 때 GPT-5.5와 함께 일상적으로 언급됩니다. 이로 인해 "Mythos급 (Mythos-class)"은 매우 유능하고 에이전트 능력을 갖춘 이중 용도 (dual-use) 모델을 뜻하는 약어로 통용됩니다.[1]

📊 두 제공업체 모두 업그레이드된 안전장치 (safeguards)를 강조합니다. GPT-5.5의 시스템 카드 (system card)는 다음을 강조합니다.[2]

에이전트 동작에 대한 강화된 통제 (Hardened controls).
고도화된 사이버 보안 역량에 대한 테스트.
광범위한 출시 전 레드팀 (red teaming) 수행.

이러한 조치들은 취약점 공격 (exploits)이나 멀웨어 (malware)에 대한 직접적인 요청을 차단하려는 시도입니다.

⚠️ 공격 보안 (Offensive security) 전문가들은 이러한 가드레일 (guardrails)이 모델이 "무엇을 말할 것인가"를 주로 제한할 뿐, "무엇을 할 수 있는가"를 제한하지는 못한다고 반박합니다.[6] 숙련된 운영자는 다음과 같은 방식을 사용할 수 있습니다.[6]\lbrack1]

"방어적" 코드를 요청한 뒤 이를 공격용으로 전환.
공격을 무해해 보이는 하위 작업 (subtasks)으로 분해.
모델을 아키텍처 추론 (architecture reasoning)에 사용하면서 최종 익스플로잇 (exploit)은 직접 작성.

위험은 다음 세 가지 요소가 결합될 때 급증합니다.[2]\lbrack3]

강력한 코딩 능력.
광범위한 도구 접근 권한 (셸, 브라우저, 클라우드 콘솔).
지속적인 행동 루프 (action loops) 및 자기 수정 (self-correction).

이 경우, 모델은 단순한 채팅 어시스턴트가 아닌 잠재적인 실행 엔진 (execution engine)이 됩니다.

💼 따라서 보안 팀은 Mythos 및 GPT-5.5급 시스템을 다음과 같은 조치가 필요한 반자율 운영자 (semi-autonomous operators)로 취급해야 합니다.[6]

최소 권한 원칙 (Principle-of-least-privilege access) 적용.
강력한 샌드박싱 (Sandboxing) 및 속도 제한 (Rate-limits).
인간 관리자와 유사한 수준의 전체 로깅 (Logging), 감사 (Auditing) 및 인간의 감독 (Human oversight).

3. APT와 범죄자들이 프런티어 LLM을 실전에서 무기화하는 방법

기존 보고서에 따르면 APT 그룹들은 이미 공격 생명주기(Attack lifecycle) 전반에 걸쳐 생성형 모델을 사용하고 있습니다:[3]

정찰 (Recon): 대상 조사, 기술 스택 매핑, OSINT 분류 (Triage).
초기 침투 (Initial access): 피싱 콘텐츠 및 미끼 (Lure) 생성.
취약점 공격 (Exploitation): 악성코드 작성 및 로더 (Loader) 디버깅.
운영 (Operations): 인프라 및 피해자 대규모 관리.

이러한 행위자들이 프런티어 LLM에 도달함에 따라, 각 단계는 더욱 자동화되고, 확장 가능하며, 적응형(Adaptive)으로 변모하고 있습니다.

중요 제어 시스템 및 산업 제어 시스템 (ICS)의 경우, 공격자들은 AI를 사용하여 다음과 같은 작업을 수행하는 법을 배우고 있습니다:[4]

혼합된 IT/OT 텔레메트리 (Telemetry) 해석.
복잡한 운영 환경 매핑.
ICS 네트워크로 진입하는 비자명한(Non-obvious) 액세스 경로 탐색.

📊 에이전트형 코딩 모델 (Agentic coding models)은 다음과 같은 것을 생성할 수 있기 때문에 ICS 측면에서 특히 우려스럽습니다:[2][3]

특정 PLC 또는 HMI에 맞춤화된 악성코드.
시그니처 탐지를 지속적으로 회피하는 다형성 페이로드 (Polymorphic payloads).[3]
실패한 감염에 대한 자동화된 문제 해결 (“왜 이 로더가 호스트 X에서 실행되지 않았는가?”).[2]

또한 AI는 다음과 같은 방식을 통해 소규모 그룹이 자신들의 역량 이상의 영향력을 발휘할 수 있게 합니다:[4]

자산 데이터 및 대상 목록 정리.
로그 및 충돌 보고서(Crash reports) 분류.
인프라 설정 및 유지 관리 자동화.

사회 공학 (Social engineering) 측면에서 강력한 언어 모델은 다음과 같은 것들을 제작하기 더 쉽게 만듭니다:[3]

고도로 맞춤화된 스피어 피싱 (Spear-phishing) 캠페인.
현지 규범에 맞춘 다국어 미끼.
실제 세부 정보와 설득력 있는 허구를 혼합한 장문의 내러티브.

💡 결과: 이제 중간 규모의 랜섬웨어 조직은 다음과 같은 일을 할 수 있습니다:[3][4]

범용 키트를 구매하는 대신 맞춤형 미끼 생성.
GPT-5.5 스타일의 에이전트를 사용하여 맞춤형 로더 디버깅.
대규모 개발 팀 없이도 더 큰 피해자 집단을 더 체계적으로 관리.

4. 군사 AI 군비 경쟁: 펜타곤의 베팅, Anthropic의 제외, 그리고 기밀 데이터

공격자들이 실험을 진행하는 동안, 군대는 프런티어 AI (Frontier AI)를 실전 배치하기 위해 서두르고 있습니다. 펜타곤 (Pentagon)은 OpenAI, Google, Microsoft, SpaceX를 포함한 7개의 기술 기업과 협약을 체결하여, 고급 AI를 미국의 기밀 국방 네트워크에 도입하기로 했습니다.[5] 프런티어 LLM (Large Language Models)은 다음과 같은 분야를 점점 더 지원하게 될 것입니다:

정보 분석 및 융합.
계획 수립 및 전투 관리 지원.
백오피스 및 물류 자동화.

Anthropic은 Claude의 안전성 명성과 이전의 국방부 (DoD) 배치 사례에도 불구하고, 군사 AI 안전장치에 대한 논쟁과 데이터 보안 우려로 인해 이 이니셔티브에서 제외되었습니다.[5][7]

📊 미국 국방 관계자들은 또한 AI 벤더들이 정보 보고서, 평가서, 전쟁 계획과 같은 기밀 데이터를 사용하여 LLM을 직접 학습시키는 방안을 준비하고 있으며, 이는 관리 소홀이 "미국 역사상 최대의 정보 재앙"이 될 수 있다는 경고를 불러일으키고 있습니다.[7][8]

전문가들은 다음 사항을 강조합니다:[8]

기밀 데이터를 통한 학습이 비밀 유지를 보장하지는 않습니다.
모델 가중치 (Model weights)는 공격받거나, 복제되거나, 탐색될 수 있습니다.
학습 데이터의 파편이 때때로 재구성되거나 유출될 수 있습니다.

⚠️ 비평가들은 다음과 같은 역설을 지적합니다. LLM이 적대적 압력 하에서 학습 코퍼스 (Training corpora)의 일부를 드러내는 것으로 알려져 있음에도 불구하고, 펜타곤은 다른 벤더들에게 기밀 학습 데이터를 위탁할 준비를 하면서 Anthropic을 "공급망 리스크 (Supply chain risk)"로 규정했습니다.[7][5][8]

기업들에게 주는 교훈은 명확합니다. 기밀 네트워크를 보유한 군대조차 LLM 공급망과 학습 데이터를 관리하는 데 어려움을 겪고 있다면, "SIEM에 연결하고 무슨 일이 일어나는지 지켜보자"는 식의 접근은 용납될 수 없는 배포 전략입니다.

5. 안전한 배포 구축: 레드팀 운영, 거버넌스, 그리고 설계 단계부터의 윤리

이러한 리스크를 고려할 때, 안전한 배포는 원시 성능(Raw capability)만큼이나 중요합니다. LLM 레드팀 운영 (Red teaming)은 다음과 같은 행동을 노출시키기 위해 적대적 프롬프트 (Adversarial prompts)로 모델을 체계적으로 공격하는 핵심 분야가 되고 있습니다:[6]

개인정보 (PII) 유출.
오정보 및 표적 조작.
편향, 혐오 표현 및 유해한 가이드.

효과적인 프로그램은 다음과 같습니다:[6]

모델의 현실적인 공격 목표 설정.
단일 턴 (single-turn) 및 다중 턴 (multi-turn) 탈옥 (jailbreak) 테스트.
모델 수준과 애플리케이션 계층(필터, 액세스 제어, 인간 검토) 모두에서 수정 유도.

💡 일부 기업은 "정책을 위반하도록 LLM을 고용하라"는 정기적인 연습을 수행하며, 여기서 블루팀 (blue-teamers)은 내부 에이전트를 포섭하려고 시도합니다. 성공한 모든 탈옥은 새로운 규칙, 탐지기 또는 에스컬레이션 경로가 됩니다.

거버넌스(governance)와 관련하여, 투자자와 실무자들은 다음과 같은 사항을 강조하는 E.T.H.I.C.S. 체크리스트와 같은 프레임워크를 권장합니다:[9][10]

설명 가능성 (Explainability) 및 투명성.
위해 완화 (Harm mitigation) 및 포용성.
설계 단계부터 고려된 강력한 보안 및 책임성 (accountability).

E.T.H.I.C.S.는 영향력이 큰 AI 결정이 다음과 같은 요건을 통해 이의 제기가 가능하도록 유지할 것을 요구합니다:[9]

모델의 역할과 한계에 대한 명확한 문서화.
출력값에 대해 항소하거나 무효화할 수 있는 인간의 능력.
핵심 인프라 및 국방 사용 사례에 대한 특별 조사.

💼 Mythos 또는 GPT-5.5급 모델을 시범 운영하는 조직을 위한 실용적인 접근 방식은 다음과 같습니다:[6][9][1]

기본적으로 이중 용도 (dual-use)임을 가정할 것.
구조화되고 지속적인 레드팀 (red teaming) 활동을 통해 실패 모드 (failure modes)를 정량화할 것.
오용을 더 어렵고, 비용이 많이 들며, 탐지하기 쉽게 만드는 윤리 중심의 거버넌스로 배포 환경을 감쌀 것.

결론: 이중 용도 인프라는 이중 트랙 방어를 요구한다

Mythos 및 GPT-5.5급 모델은 자율적인 슈퍼 해커는 아니지만, APT (지능형 지속 위협), 범죄자, 군대를 포함한 정교한 운영자들에게 강력한 전력 증강 요소 (force multipliers)가 됩니다.[1][2][3] 기관들이 이를 기밀 워크플로에 통합하고 기업들이 이를 코파일럿 (copilots)에서 에이전트 (agents)로 업그레이드함에 따라, 공격 표면 (attack surface)은 전통적인 통제 수단보다 더 빠르게 확장되고 있습니다.

⚠️ 가장 안전한 입장은 프런티어 LLM을 이중 용도 인프라로 취급하는 것입니다. 이는 다음을 의미합니다:[6][9]

엄격한 레드팀 활동과 지속적인 테스트에 조기에 투자할 것.
윤리와 보안을 중심에 두기 위해 E.T.H.I.C.S.와 같은 프레임워크를 채택할 것.
안전장치, 데이터 사용 및 알려진 실패 모드에 대해 벤더의 투명성을 요구할 것.

만약 Mythos, GPT-5.5 또는 유사한 시스템을 평가하고 있다면, 먼저 APT (지능형 지속 위협)가 어떻게 귀하의 의도된 워크플로우 (workflows)를 전복할 수 있는지 매핑하는 것부터 시작하십시오. 그런 다음 보안, 엔지니어링, 법무 및 제품 부서로 구성된 다기능 팀 (cross-functional team)을 구성하여, 실제 운영 배포(production rollout)를 하기 전에 적대적 연습 (adversarial exercises)과 거버넌스 프로세스 (governance processes)를 설계하십시오. 이러한 모델을 현재 시점에서 안전하고 책임감 있게 배포하는 법을 배우는 조직은, 가장 위험한 부채 (liabilities)를 떠안지 않고도 그 혜택을 누릴 수 있을 것입니다.[1][2][9]

CoreProse 소개: 검증된 인용을 포함한 연구 중심의 AI 콘텐츠 생성 서비스입니다. 환각 (hallucinations) 현상이 전혀 없습니다.

🔗 CoreProse 체험하기 | 📚 더 많은 KB Incidents 보기