Fable 5가 다시 탈옥되었습니다
요약
연구원 Vitto Rivabella가 Fable 5의 다층적 방어 체계를 우회하는 데 성공했습니다. 시스템은 키워드가 아닌 의미와 의도를 분석하여 보호하지만, 특정 기법을 통해 우회가 가능함을 입증했습니다.
핵심 포인트
- Fable 5는 프롬프트, 대화 기록, 시스템 컨텍스트 등을 검사하는 다층 방어 체계 보유
- 키워드 기반이 아닌 의미, 의도, 요청 체인 등을 분석하여 필터링 수행
- 희귀 언어, 학술적 프레임워크, 유니코드 등을 활용한 우회 기법 발견
- 긴 작업에 대한 안정적인 우회는 여전히 어려운 과제임
연구원 Vitto Rivabella는 Fable 5의 방어 체계를 테스트했으며 우회(bypass) 방법을 찾아내는 데 성공했습니다.
그에 따르면, 대부분의 시도는 실패했습니다. 보호 체계는 다층적(multi-layered)입니다. 모델은 프롬프트(prompt), 대화 기록(conversation history), 시스템 컨텍스트(system context), 그리고 모델 자신의 응답을 검사합니다.
일부 필터는 생성(generation) 중에 실행되며 답변을 중간에 중단시킬 수 있습니다.
이 검사들은 키워드(keywords)를 기반으로 하지 않습니다. 시스템은 의미(meaning), 의도(intent), 언어(language), 어구(wording), 그리고 의심스러운 요청 체인(suspicious chains of requests)을 살펴봅니다.
우회(bypass)에는 약 20시간이 소요되었습니다. 희귀 언어, 학술적 프레임워크(academic framing), 긴 빌드업(long build-ups), 유니코드(Unicode), 작업을 부분으로 나누기, 그리고 사고의 사슬(chain of thought)을 활용하는 과정이 필요했습니다.
저자는 긴 작업에 대해 안정적인 우회(bypass)를 얻지는 못했습니다. 그의 말에 따르면, 일반적인 검색이 더 빠르고 저렴합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기