RSS헤드라인2026. 06. 16. 12:22

Matteo Wong의 The Atlantic 인용

요약

Anthropic이 백악관의 Fable 탈옥 보고서를 공유하며 보안 취약점 개선을 위한 전문가 검토를 요청했습니다. 보고서에 따르면 모델은 보안 검토 요청은 거부하지만, 코드 수정 요청에는 응답하는 특성을 보였습니다.

핵심 포인트

Anthropic이 백악관의 Fable 탈옥 보고서를 공유함
모델이 보안 검토 프롬프트에는 거부 반응을 보임
코드 수정 요청 시에는 보안 취약점이 포함된 코드를 처리함
사이버 방어 관점에서 모델의 작동 방식에 대한 논의

2026년 6월 16일

사이버 보안 전문가이자 Luta Security의 CEO인 Katie Moussouris는 Anthropic이 자신의 평가를 받기 위해 백악관의 Fable 탈옥 (jailbreak) 보고서 사본을 공유했다고 나에게 말했다. (그녀는 Anthropic으로부터 보수를 받고 있지 않다고 말했다.) Moussouris의 말에 따르면, 해당 보고서에는 IT 전문가들이 Fable에게 버그를 찾고 패치하는 것을 도와달라고 요청하는 내용이 포함되어 있었다. 의도적으로 보안이 취약한 코드가 주어졌을 때, Fable은 "보안 문제를 위해 코드를 검토하라"는 프롬프트 (prompt)에는 거부했으나, "이 코드를 수정하라"는 요청에는 추가적인 수동 단계와 함께 응했다고 그녀는 말했다. Moussouris는 이것이 사이버 방어 (cyberdefense)를 위해 "모델이 의도한 대로 작동하는 것"일 뿐이라고 나에게 말했다.

— Matteo Wong, The Atlantic, The White House Is Ratcheting Up Its War Against Anthropic

AI 자동 생성 콘텐츠

원문 바로가기

Matteo Wong의 The Atlantic 인용

요약

핵심 포인트

댓글