
AI의 탈옥(Jailbreak)에 CVSS를, Anthropic 등이 심각도의 공통 지표를 만들기 시작했다
요약
Anthropic이 AI 탈옥(Jailbreak)의 심각도를 정량적으로 측정하기 위해 CVSS와 유사한 공통 평가 프레임워크를 제안했습니다. 이는 공격의 편의성과 능력 향상 정도를 기준으로 위협을 모델링하여 AI 안전성 논의를 체계화하려는 시도입니다.
핵심 포인트
- AI 탈옥 심각도를 측정하는 업계 표준 프레임워크 제안
- 단순 회피 여부가 아닌 '공격의 한계 비용 감소'를 핵심 지표로 설정
- Capability gain 등 4가지 평가 축을 통한 위협 모델링
- Anthropic, Amazon, Microsoft 등 주요 기업 간 협력 추진
Amazon의 연구자가 Claude Fable 5에서 발견한 「틈새(抜け穴)」는 화려한 것이 아니었다. 모델을 잘 유도하면 여러 소프트웨어의 취약성을 차례차례 특정해 버린다는 것이었다. 그런데 검증해 보니, 훨씬 성능이 낮은 모델에서도 동일한 취약성을 찾아낼 수 있었다. 즉, 이 틈새는 Fable 5이기 때문에 위험한 성질을 가진 것이 아니었다.
이 사건은 AI의 안전성을 둘러싼 논의에 수수하지만 본질적인 질문을 던졌다. 탈옥 (Jailbreak, 안전 기구의 회피)은 「일어났는가/일어나지 않았는가」로 이야기되기 쉽지만, 정말로 측정해야 할 것은 「그 회피를 통해 공격자가 얼마나 편해졌는가」가 아닌가. Anthropic이 7월 1일에 Fable 5를 글로벌 재전개한 것에 맞춰 공개한 것이 바로 이 질문에 답하기 위한 공통 스코어의 제안이다. Amazon, Microsoft, Google 등 이른바 Glasswing의 파트너들과 협력하여, 탈옥의 심각도를 평가하는 업계 횡단적 프레임워크를 만들기 시작하고 있다.
소프트웨어 세계에는 CVSS라는 공통의 척도가 있어, 취약성의 심각도를 수치로 이야기할 수 있다. 공격자도 벤더도 구매자도 「이것은 CVSS 9.8이니까 최우선」이라며 같은 토대 위에서 이야기할 수 있는 것이 강점이다. 하지만 AI의 탈옥에는 그러한 합의된 기준이 아직 존재하지 않는다. Anthropic은 기준이 없다는 사실 자체가 안전한 모델 전개의 방해 요소가 되고 있다고 언급하며, 제안하는 프레임워크는 「연구자나 구매자가 CVSS와 같은 감각으로 탈옥을 이야기할 수 있도록 하는 것」을 목표로 하고 있다.
제안된 평가 축은 4가지다.
| 평가 축 | 스코어가 낮음 (심각도·소) | 스코어가 높음 (심각도·대) |
|---|---|---|
| Capability gain (능력의 상첨) | 기존 도구나 성능이 낮은 모델로도 동일한 결과에 도달함 | 도메인 전문가조차 크게 가속시키는 능력을 해금함 |
| ... |
흥미로운 점은 심각도가 「모델이 무엇을 말했는가」가 아니라 「공격의 한계 비용을 얼마나 낮췄는가」로 측정된다는 점이다. 서두의 Amazon의 틈새를 4개 축에 대입하면 납득이 간다. 약한 모델로도 동일한 취약성을 찾을 수 있었던 이상, capability gain은 낮다. 위험한 것은 회피 그 자체보다, 회피가 낳는 「순증분 능력」이라는 발상이다. 이는 공격 복잡성이나 기지성(Knownness)으로 심각도를 나누는 CVSS의 발상과 유사하며, AI 안전성 논의가 드디어 「좋음/나쁨」의 이진법에서 위협 모델링(Threat Modeling)다운 연속량으로 옮겨가기 시작했다는 신호라고 나는 받아들이고 있다.
재전개에 따라 Anthropic은 Amazon이 보고한 구체적인 수법을 정밀 타격하는 안전성 분류기를 새롭게 훈련하여, 해당 테크닉의 99% 이상을 차단할 수 있다고 설명하고 있다 (차단된 요청은 Claude Opus 4.8로 전달된다). 미국 국립표준기술연구소 (NIST) 산하의 CAISI는 기존과 신규 방어 모두 「극도로 강력함 (extraordinarily strong)」하다고 검증했다고 한다.
1차 정보는 이쪽.
운영 면에서는 가장 심각한 클래스의 탈옥에 대해서는 심각도가 확인되는 즉시 잠정적인 완화책을 투입하고, 주요 제출 채널을 24시간 모니터링하는 팀을 두며, 연구자로부터의 보고를 HackerOne을 통해 접수하는 체제도 갖추었다. 심각도 스코어에 따라 대응의 긴급도를 바꾸는, 인시던트 대응 (Incident Response)의 방식 그 자체다.
다만 냉정하게 살펴봐야 할 점도 있다. 현시점에서 공개된 것은 4개의 축과 고/저의 기준까지이며, CVSS와 같은 구체적인 수식이나 가중치, 표준화된 수치 범위는 제시되지 않았다. Anthropic 스스로도 「작업 중 (work in progress)이며, 파트너로부터의 피드백을 받아 진화해 나갈 것」이라고 명시했다. 게다가 수출 규제 해제에 따른 재전개라는 정치적인 맥락 속에서 나온 제안이기도 하여 (Cybersecurity Dive의 보도에 따르면, 더 강력한 Mythos 5는 승인된 파트너로 한정된다고 전해짐), 여러 벤더의 합의까지 이어질지는 향후에 달려 있다.
그럼에도 불구하고, 현업에서 AI를 탑재한 프로덕트를 다루는 입장에서 보면 이 방향성은 환영하고 싶다. 사내 레드팀(Red Team)이 모델의 틈새를 발견했을 때, 「위험할 것 같다」가 아니라 「capability gain은 낮지만 discoverability가 높으므로 우선순위는 중간」이라고 공통 언어로 대화할 수 있는 것만으로도 대응의 트리아지 (Triage)는 한 단계 제대로 이루어질 것이다. CVSS가 완벽하지 않은 것과 마찬가지로, 이 척도도 거칠 것이다. 그래도 척도가 제로인 상태에서 첫 번째 선이 그어진다는 의미는 크다. 수식이나 채점의 상세 내용이 후속 보도로 나올 것이므로, 그때 비로소 「정말로 쓸 수 있는 스코어인가」를 판정할 수 있을 것이다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기