Matteo Wong의 The Atlantic 인용
요약
Anthropic이 백악관의 Fable 탈옥 보고서를 공유하며 보안 취약점 개선을 위한 전문가 검토를 요청했습니다. 보고서에 따르면 모델은 보안 검토 요청은 거부하지만, 코드 수정 요청에는 응답하는 특성을 보였습니다.
핵심 포인트
- Anthropic이 백악관의 Fable 탈옥 보고서를 공유함
- 모델이 보안 검토 프롬프트에는 거부 반응을 보임
- 코드 수정 요청 시에는 보안 취약점이 포함된 코드를 처리함
- 사이버 방어 관점에서 모델의 작동 방식에 대한 논의
2026년 6월 16일
사이버 보안 전문가이자 Luta Security의 CEO인 Katie Moussouris는 Anthropic이 자신의 평가를 받기 위해 백악관의 Fable 탈옥 (jailbreak) 보고서 사본을 공유했다고 나에게 말했다. (그녀는 Anthropic으로부터 보수를 받고 있지 않다고 말했다.) Moussouris의 말에 따르면, 해당 보고서에는 IT 전문가들이 Fable에게 버그를 찾고 패치하는 것을 도와달라고 요청하는 내용이 포함되어 있었다. 의도적으로 보안이 취약한 코드가 주어졌을 때, Fable은 "보안 문제를 위해 코드를 검토하라"는 프롬프트 (prompt)에는 거부했으나, "이 코드를 수정하라"는 요청에는 추가적인 수동 단계와 함께 응했다고 그녀는 말했다. Moussouris는 이것이 사이버 방어 (cyberdefense)를 위해 "모델이 의도한 대로 작동하는 것"일 뿐이라고 나에게 말했다.
— Matteo Wong, The Atlantic, The White House Is Ratcheting Up Its War Against Anthropic
AI 자동 생성 콘텐츠
본 콘텐츠는 RSS: Simon Willison's Weblog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기