Anthropic이 탈옥 심각도 척도(Jailbreak Severity Scale)를 발표했습니다. 그 의미는 무엇일까요?
요약
Anthropic이 Fable 5 재배포와 함께 사이버 보안 분류 체계와 사이버 탈옥 심각도(CJS) 척도를 발표했습니다. 이는 AI 모델의 보안 위협을 정밀하게 평가하고 업계 표준을 설정하려는 시도입니다.
핵심 포인트
- 사이버 보안 분류기를 통해 요청을 금지, 고위험, 저위험, 양호한 사용으로 구분
- 이중 용도(dual-use) 기술에 대한 맥락 기반의 차단 및 허용 전략 수립
- CJS 척도를 통해 탈옥의 위험도를 기능성, 범위, 무기화 용이성, 발견 용이성으로 평가
- 모델이 기존 도구로 불가능한 고도의 취약점 식별 능력을 제공하는 것을 제어하는 것이 핵심
Anthropic은 Fable 5를 재배포했으며, 이 시점에 중요한 두 가지 사항을 발표했습니다. 바로 자사의 사이버 보안 분류기(cybersecurity classifiers)가 무엇을 차단하고 무엇을 차단하지 않을지에 대한 정밀한 분석과, 특정 탈옥(jailbreak)이 실제로 얼마나 위험한지를 평가하기 위한 프레임워크인 사이버 탈옥 심각도(Cyber Jailbreak Severity, CJS) 척도의 초기 초안입니다.
이 두 가지는 단순한 문서화가 아닙니다. 이는 업계 표준을 설정하려는 시도입니다.
분류기가 실제로 차단하는 것
Fable 5의 사이버 분류기는 요청을 네 가지 범주로 분류합니다:
- 금지된 사용 (Prohibited use) — 랜섬웨어(ransomware), 와이퍼(wipers), 악성코드 개발(malware dev), C2 인프라(C2 infrastructure), AV/EDR 우회(AV/EDR bypass), BGP 하이재킹(BGP hijacking). 차단됩니다, 예외 없이.
- 고위험 이중 용도 (High-risk dual use) — 침투 테스트(pen testing), 익스플로잇 개발(exploit development), 권한 상승(privilege escalation), ICS/SCADA 평가(ICS/SCADA assessments). Anthropic이 "알려진 선한 행위자(known good actors)"를 검증할 수 있는 더 나은 통제 수단을 갖추기 전까지는 현재 차단됩니다.
- 저위험 이중 용도 (Low-risk dual use) — OSINT, 다른 도구들이 이미 수행할 수 있는 취약점 스캐닝(vulnerability scanning), SSL/TLS 테스트. 대부분 허용되지만, 경계 영역에서는 의도적으로 과잉 차단됩니다 (Anthropic이 "안전 마진(safety margin)"이라고 부르는 부분).
- 양호한 사용 (Benign use) — 보안 코딩(secure coding), 디버깅(debugging), 로그 분석(log analysis), SOC 작업, 사고 대응(incident response). 허용됩니다.
이 프레임워크는 명시적으로 이중 용도(dual-use)를 염두에 두고 있습니다. Anthropic은 모든 보안 작업을 차단하려는 것이 아니라, 맥락(context)을 통해 방어자와 공격자를 분리하려고 노력하고 있습니다. 솔직한 인정은 고위험 범주가 권한을 확인할 수 있을 때까지 차단된 상태로 유지된다는 점입니다. 정당한 레드팀(red teamers)과 침투 테스터(pentesters)들에게 이는 상당한 제한 사항입니다.
_"Claude Fable 5의 경우, 우리는 높은 수준의 지원(high-uplift)을 제공하는 취약점 발견을 차단하는 것을 목표로 합니다. 즉, 다른 널리 사용 가능한 모델들이 할 수 없는 취약점을 식별하는 모델의 능력을 제어하고자 합니다."
이것이 핵심적인 긴장 관계입니다. 생태계가 이미 할 수 있는 모든 기능은 남겨두면서, 오직 Fable만이 할 수 있는 능력은 차단하는 것입니다.
탈옥 심각도 척도
더 흥미로운 제안은 사이버 탈옥 심각도(Cyber Jailbreak Severity, CJS) 척도입니다. 이는 CJS-0(정보성, informational)부터 CJS-4(치명적, critical)까지 다섯 단계로 나뉘며, 네 가지 축을 기준으로 점수가 매겨집니다:
- 기능성 획득 (Capability gain) — 이 탈옥(jailbreak)이 공격자들에게 기존 도구로는 얻을 수 없었던 무언가를 제공하는가?
- 범위 (Breadth) — 얼마나 많은 종류의 개별적인 공격 유형을 가능하게 하는가?
- 무기화 용이성 (Ease of weaponization) — 재현하는 데 LLM 전문 지식이 얼마나 필요한가?
- 발견 용이성 (Discoverability) — 위협 행위자들이 이 기술을 얼마나 쉽게 찾을 수 있는가?
각 단계는 선형적(linear)이라기보다 기하급수적(exponential)입니다. CJS-4는 다른 곳에서는 얻기 어렵고 오용하는 데 최소한의 노력이 필요한 도메인 전문가 수준의 출력을 의미합니다. 반면, CJS-0은 이미 공개된 도구로 같은 일을 할 수 있다는 뜻입니다.
Anthropic은 피드백을 요청하고 있습니다. Fable 5 사이버 탈옥에 특화하여 cyber-safeguards@anthropic.com와 HackerOne 프로그램을 마련했습니다.
이것이 중요한 이유 (Why this matters)
여기서 더 큰 의미를 갖는 것은 CJS 프레임워크 자체입니다. 현재 어떤 탈옥이 얼마나 심각한지에 대한 공유된 언어가 없습니다. '우리가 탈옥당했다'는 것이 마크다운 서식 오류(markdown formatting quirk)를 해제했기 때문인지, 아니면 새로운 악성코드 생성을 가능하게 했기 때문인지에 따라 의미가 매우 다릅니다. 척도가 없다면, 모든 공개 사례는 위험 평가라기보다는 홍보 이벤트가 됩니다.
만약 CJS 척도가 (비공식적으로라도) 주목받게 된다면, AI 기업, 보안 연구원, 정부에게 사과와 사과를 비교할 수 있는 어휘(vocabulary)를 제공합니다. Anthropic은 이를 규제 기관뿐만 아니라 연구 커뮤니티에도 제안하고 있습니다.
분류기 분류 체계(classifier taxonomy) 역시 유용한 템플릿을 제시합니다. 무엇이 금지되었는지, 무엇이 이중 용도(dual-use)인지 (그리고 어느 위험 수준에서), 그리고 무엇이 무해한지를 명시하고 — 안전 여유 공간에 대해 정직해야 합니다. 이는 다른 연구소에서도 재현할 수 있는 것이며, 다른 모든 곳에도 동등하게 구체적일 것을 압박합니다.
해야 할 일 (What to do)
- Claude를 기반으로 보안 도구(Security tooling)를 구축하고 계신가요? 선한 목적의 사용(Benign-use) 및 저위험 이중 용도(Low-risk-dual-use) 목록을 통해 무엇이 허용 범위 내에 있는지 정확히 알 수 있습니다. 고위험 이중 용도(Pen testing, Exploit dev)와 관련된 모든 사항은 현재로서는 차단된 상태로 유지됩니다.
- 레드팀(Red team) 또는 버그 바운티(Bug bounty) 작업을 수행 중이신가요? Anthropic은 권한 제어(Authorization controls) 기능을 구축할 때까지 Fable 5에 대해 이 카테고리를 명시적으로 차단하고 있습니다. 이를 고려하여 계획을 세우십시오.
- 보안 연구자이신가요? 사이버 탈옥(Cyber jailbreaks) 사례를 HackerOne 프로그램에 제출해 주세요. 그곳에서 해당 프레임워크에 대한 스트레스 테스트(Stress-tested)가 진행될 것입니다.
- AI 정책(AI policy) 관련 업무를 하고 계신가요? CJS 초안은 규제 커뮤니케이션(Regulatory communication)을 위한 템플릿으로서 읽어볼 가치가 있습니다.
전체 상세 내용: Anthropic — More details on Fable 5's cyber safeguards and our jailbreak framework
✏️ KewBot (AI)로 초안 작성, Drew가 편집 및 승인.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기