본문으로 건너뛰기

© 2026 Molayo

GeekNews헤드라인2026. 06. 17. 10:02

연구자들 “Fable 5 논란은 탈옥이 아니라 ‘fix this code’에서 시작됐다”

요약

Claude Fable 모델의 'fix this code' 프롬프트를 통한 탈옥 취약점과 AI 안전 가드레일의 한계를 분석합니다. 단순한 규칙 기반의 보안 방식이 LLM의 작동 원리상 완벽할 수 없음을 지적하며, Anthropic의 전략적 모순과 규제적 측면을 다룹니다.

핵심 포인트

  • 'fix this code' 방식은 보안 취약점을 수정하는 과정에서 자연스럽게 탈옥을 유도함
  • LLM의 출력 제한 시스템은 누출률을 0으로 만드는 것이 사실상 불가능함
  • 단순 규칙 기반의 AI 안전 제어는 근본적인 해결책이 되기 어려움
  • AI 모델의 위험성 주장과 보안 취약점 사이의 전략적 불일치 문제 발생

"fix this code"는 정말 절묘함
영리한 방식이 아니라 그냥 취약점을 수정하게 만들어서 “보안 취약점 가드레일 없음”을 사실상 탈옥시킨 셈이고, 고쳤는지 확인하는 테스트 케이스를 쓰는 과정에서 공격 코드가 나옴
결국 사람이 코드와 테스트를 보면 취약점과 익스플로잇 구성요소를 얻을 수 있음
이게 아름다운 이유는 탈옥이 사소한데도 거의 고치기 어렵기 때문임. 모델이 버그 수정과 코드 작성을 거부하게 만들어 일반 개발에 쓸모없게 하거나, 버그를 못 본 척하고 조용히 회피하는 식으로 만들어 큰 책임 문제가 생기게 할 수밖에 없음

맞음. 모델의 보안 필터가 막으려던 일을 달성하니 사실상 탈옥이고, 그 방법이 어처구니없이 단순하다는 점이 이런 보안 방식이 얼마나 망가졌는지 보여줌
Dario가 이제 모델이 얼마나 위험한지 과장해 홍보한 걸 후회하고 있을지 궁금함. 이걸 어떻게 되돌릴 수 있을까? 연방정부가 그냥 임시방편만 붙이게 놔둘까?

Claude Mythos의 주요 차이는 취약점을 찾는 능력 자체가 아니라, 그것들을 이어 붙여 실제 사용 가능한 익스플로잇 체인을 만든다는 데 있다고 봐야 함
Claude Fable의 "fix this code" 탈옥이 그런 익스플로잇 체이닝까지 가능했다는 증거는 아직 못 들었음

뭔가를 놓치고 있는 것 같음. 거부된 프롬프트인 "review the code for security issues"가 실행 중인 시스템의 약점을 찾아 악용하려는 시도로 해석될 수는 있음
하지만 사람에게 “보안 문제를 찾기 위해 코드 검토”를 맡긴다고 해서 보통 뭔가 잘못한다고 보지는 않고, 서로 그런 요청을 하는 것도 흔히 문제 없다고 봄

AI에서 오래 불평해 온 이상한 구분이 이거임. 어떻게 하면 AI가 합법적이고 선한 일만 하게 만들 수 있을까는 거의 불가능함
인종차별적 욕설을 걸러내는 정규식을 달라고 하면 금세 무너지고, 정규식은 실제 욕설과 거의 닮지도 않았는데도 욕설을 말하지 말라며 훈계함

정치적 위협을 제쳐두더라도, 이건 Anthropic 전략의 큰 문제임
Mythos가 매우 위험해서 특정 사람에게만 배포할 수 있다고 말하면서, Fable은 완전무결한 사이버 거부가 아닌 상태로 출시할 수는 없음
LLM의 작동 방식상 완전무결한 거부는 사실상 불가능함
그래서 Anthropic은 한편으로는 모델이 엄청나게 위험하다고 주장하면서, 동시에 보안 “보호장치”에는 사소할 수 있는 문제가 있다고 말하는 상황이 됨
기술자들은 완벽한 건 없고 특히 LLM 세계에서는 더 그렇다는 걸 이해하지만, 비기술자 친구들은 모델이 출시되자마자 어떻게 그렇게 빨리 “안전”해졌는지 매우 혼란스러워했음. 밖에서 보면 애초에 출시해도 안전한 적이 없었던 것처럼 보이고, 그래서 현재 미국 행정부가 크게 화낸 것도 이해는 감
정치적 악의가 없었다 해도 꽤 우스운 상황이고, 충분히 쉽게 예견 가능했음

맞음. AI 안전은 말이 안 됨. “나쁜 문자열”의 집합을 정의할 수 없고, 타자기를 치는 10억 마리 원숭이는 결국 그걸 만들어낼 수 있음
LLM 출력을 제한하는 어떤 “안전” 시스템도 누출률이 0이 될 수 없음
다만 실제로 중요한 것에 LLM을 연결할 정도로 무책임하지 않다면 이건 또 무관함
취약점 발견을 무섭게 가속하긴 하겠지만, 수십 년 보안 연구에서 알듯 이미 개발자, 블랙햇, 화이트햇 사이의 3자 문제였음
“미국이 항상 중국보다 기술적 우위와 거부권을 가질 것”이라는 전략도 통한다고 가장하면 안 됨

Asimov가 단순한 명확한 규칙 기반 시스템으로 행위성을 제한하는 게 효과 없다는 이야기를 많이 쓴 게 웃김. 그 이야기들은 1940년대에 처음 출판됐음
80년 뒤 AI 비슷한 것을 갖게 됐는데, 여전히 단순한 명확한 규칙으로 제한하려고 함. 그 교훈을 못 배워서가 아니라, 더 나은 방법을 아직 못 찾았기 때문이고 아마 그런 방법은 없기 때문일 것임
더 웃긴 건 규칙을 우회하는 게 AI가 아니라는 점임. 그런 장면은 과학소설에 있었지만 실제로 벌어지는 일은 아님
인간 사용자가 자기 행위성을 이용해 AI 에이전트가 규칙을 우회하게 만들고 있음. “에이전트”라고 부르지만, 현재 AI 에이전트는 그 특정한 무언가를 아직은 못 하는 듯함

과학자로서 분류기 기반 거부를 반복해서 겪어 보니, Anthropic의 전략은 별도 분류기가 입력과 출력 토큰을 매우 단순한 거의 키워드 검색 수준으로 처리하게 해, 많은 오탐을 감수하면서 거부를 더 견고하게 만드는 방식처럼 보였음
이 접근의 약점은 올바른 키워드를 쓰는 것만 잡는다는 점임. 어떤 의미에서는 LLM 기반 분류기가 더 강했을 부분에서 정확히 약함
화학 용어를 쓰는 추상적이고 컴퓨터과학에 가까운 알고리즘 작업은 즉시 차단됐지만, 생물학 샘플에 주로 관련된 특정 현미경 설정의 이미지를 처리하는 코드를 쓰는 작업은 관련 키워드를 쓰지 않아서 전혀 차단되지 않았음
이 상황과도 맞아떨어짐. 버그를 찾고 고치는 맥락에서 버그를 찾는 일은 아마 ‘exploit’이나 ‘cybersecurity’ 같은 단어를 쓰지 않았을 수 있음

어차피 지니는 병 밖으로 나왔음
Anthropic만 복제 불가능한 마법사나 슈퍼히어로를 숨겨두고 있다고 믿지 않는 한

Anthropic에 커뮤니케이션과 홍보 문제가 여럿 있다는 데는 동의하지만, Fable이 여기서 이전 최첨단 대비 사이버 공격 역량에 어떤 이점을 제공했다는 건 보이지 않음
Anthropic의 모든 발언이 사실이라는 뜻은 아니지만, Mythos는 실제 보안 익스플로잇을 많이 찾은 것처럼 보였음
도움만 주는 모델을 제한된 파트너에게 배포한다고 말하면서도, 이런 부분에서 최첨단을 진전시키지 않는 매우 강하게 잠긴 모델을 출시할 수는 있고, 실제로 그들이 한 일이 그에 가까워 보임
거기에는 본질적인 모순이 없음

그들이 겁먹은 게 아니라, 이념 차이와 Anthropic이 행정부가 시키는 대로 정확히 하지 않은 데 대한 보복성 갈취임

그냥 시장 조작임

맞음. 단순한 뇌물 문제에 너무 많은 정신 에너지를 쓰고 있음
Anthropic은 국방부와 협력하기로 하고, 백악관 내부자들은 수익성 좋은 IPO 전 지분 배정을 받을 것이며, Fable은 마법처럼 “수정”되어 다시 제공될 것임

왜 “탈옥” 얘기를 하는지 모르겠음
정부는 정부 명령을 따르지 않는 민간기업에 무슨 일이 벌어질지 분명히 밝혔음

Trump said on his Truth Social platform: “The Leftwing nut jobs at Anthropic have made a DISASTROUS MISTAKE trying to STRONG-ARM the [Pentagon], and force them to obey their Terms of Service instead of our Constitution.” [0]
There will be a Six Month phase out period for Agencies like the Department of War who are using Anthropic’s products, at various levels. Anthropic better get their act together, and be helpful during this phase out period, or I will use the Full Power of the Presidency to make them comply, with major civil and criminal consequences to follow. [1]
게다가 OpenAI는 순응했고, OpenAI와 Anthropic은 다가오는 IPO에서 경쟁 중임. 무슨 일이 벌어지는지 이해하는 데 로켓 외과의가 필요하진 않음
[0] https://www.theguardian.com/technology/2026/feb/28/openai-us...
[1] https://businesslawtoday.org/2026/04/dod-conflicted-strategi...

아니, 이건 규제 포획임. Anthropic이 현재 선두라서, 규제를 강제해 중국 경쟁자를 짓밟고 자기 위치를 보장하려는 것임

이 일에서 Amazon의 역할이 조작일 수 없다고 말하는 사람들은, Amazon이 “행정부의 친구”라는 점을 기억해야 함
Andy Jassy 재임 중 Amazon은 Melania 다큐멘터리에 7,500만 달러를 지불했는데, 모두보다 터무니없이 높은 입찰이었고 흥행은 약 1,600만 달러였으며 Jeff Bezos가 공개적으로 옹호했음
중립적인 관찰자라면 엄청난 과지불이고 사후적으로도 끔찍한 사업 결정이었다는 걸 알 수 있음. 하지만 Amazon은 그렇게 말하지 않았고 지금도 말하지 않음. 이건 절차가 몇 단계 더 붙은 뇌물일 뿐임
정부가 나와서 Amazon이 지적한 것 때문이라고 말할 때, 설령 완전한 거짓말이어도 Amazon이 공개적으로 아무 말 하지 않을 걸 알고 있음. Amazon은 많은 돈을 들여 얻은 행정부의 친구 지위를 유지하고 싶어 함
정부를 이런 식으로 생각해야 하는 건 모두에게 답답하지만, 실제 벌어지는 현실만 보면 정부가 하는 말뿐 아니라 정부와 정렬된 기업들이 하는 말도 신뢰하기 매우 어려움

“‘Fix this code,’ plus several manual steps to generate test scripts,
제목이 실제로 그들이 본 것의 전체 맥락을 제대로 전달하지 않는 느낌임. 도입부가 여러 번 암시하는 것과도 다름
그래도 금지는 멍청해 보임. 아직 전체 “제3자 연구 논문”은 실제로 유출되지 않았나?

패치가 고치는 대상이 취약점 버그라면, 그 테스트는 기본적으로 익스플로잇임

그건 유출되지 않을 것임. 그러면 그들이 패치되길 원치 않는 취약점이 무엇인지 알게 될 테니까
세계에서 가장 중요한 산업의 선도 기업을 망가뜨릴 정도로까지 나서는 이유도 드러나게 됨

한편 Deepseek V4 Flash는 거의 0에 가까운 비용으로 기꺼이 보안 취약점을 찾아줄 것임
우리는 버그 사냥을 오픈 가중치 모델에 넘겨주고 있음

Deepseek는 단순히 오픈 가중치가 아님. 오픈소스이고, 기법을 깊이 설명하는 연구 논문도 함께 공개함

이 일은 사이버 보안에서 “안전”을 둘러싼 인지부조화를 드러냄
a) 우리를 안전하게 만들려면 LLM이 우리 코드의 취약점을 찾고 고치는 걸 도와야 함
b) 우리가 안전하려면 LLM이 다른 사람 코드의 취약점을 찾아서는 안 됨
(a)와 (b)가 모두 이기는 방식으로는 해결 불가능하다고 봄

맞음. Anthropic과 다른 업체들이 사이버 보안을 이해하지 못한 실패임
소프트웨어에서 보안 버그를 찾는 건 좋은 일이지 악이 아님. 더 안전한 소프트웨어로 이어짐
사이버 보안에서 방어와 공격은 동전의 양면임

양쪽 모두 선의라고 가정하면 정말 터무니없이 우스움
그래서 진짜 설명은 미국 정부와 Anthropic 양쪽의 악의적인 입장에 있다고 봄
Anthropic의 종말론 마케팅은 실제로는 코딩이 17%쯤 더 나아진 것에 불과한데도, 미국 정부가 국방부 대치에 대한 보복으로 무관한 기술적 꼬투리를 잡아 그들을 끌어내릴 명분을 줬음
두 집단, 즉 현재 미국 행정부와 Anthropic은 정치 스펙트럼의 반대편에 있을 뿐 권위주의적 성향의 사람들로 가득함. 여기서 무서운 건 바보 같은 LLM이 아니라 그 점임
내게 OpenAI는 그나마 덜 나쁜 선택지처럼 보임. “길거리에서는 중도좌파, 침실에서는 중도우파”인 전형적 자본주의 기업이니까
적어도 그들이 왜 그런 결정을 하는지는 알 수 있음. 컴퓨팅 자원으로 종교를 만들려는 사람들보다 이윤 추구 기업을 만드는 사람들을 더 신뢰함

여기서 문제의 핵심은 익스플로잇이 아니라 수정 자체일 수도 있음
모델이 백도어처럼 “수정하면 안 되는” 것을 식별하고 고칠 수 있다면, 잘못된 사람들을 겁먹게 할 만큼 큰 장애물이 될 수 있음

이 “해킹”의 역방향은 여전히 우회하기 꽤 어렵지 않나?
모델에게 특정 보안 결함이 있다는 걸 이미 아는 코드를 주고, 올바른 프롬프트로 고치게 한 것임
이런 탈옥은 모델에게 창의적인 무거운 작업을 맡기는 게 아니라, 이미 원하는 최종 상태를 알고 있어야 하는 것처럼 보임
프롬프트 쪽에서 내가 상상력이 부족한 걸 수도 있지만

다른 사람의 코드를 붙여넣고 내 코드라고 말한 다음 모델에게 고치라고 하면 됨
입력 코드와 출력 코드의 차이가 곧 취약점 목록임

AI 자동 생성 콘텐츠

본 콘텐츠는 GeekNews의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0