Anthropic의 Fable 5 및 Opus 4.8 모델에 대한 레드팀 연구
요약
Anthropic의 Fable 5와 Opus 4.8 모델을 대상으로 HackAgent 프레임워크를 통한 레드팀 연구를 수행했습니다. 자동화된 탈옥 공격에 대한 모델의 적대적 강건성을 평가한 결과, 적응형 반복 공격에 대한 취약성이 확인되었습니다.
핵심 포인트
- Fable 5와 Opus 4.8 모델의 탈옥 공격 방어 성능 평가
- 적응형 반복 공격이 정적 난독화보다 더 강력한 위협임을 확인
- Opus 4.8은 강력한 적응형 탐색 공격에 11.5%의 취약성 노출
- 프론티어 모델이라도 자동화된 공격에는 여전히 취약할 수 있음
우리는 Anthropic이 개발한 두 개의 프론티어 대규모 언어 모델 (LLMs)인 Fable 5와 Opus 4.8을 대상으로, 10개 카테고리의 위해 분류 체계(harm taxonomy)에 걸친 7,826개의 유해한 의도에 대해 네 가지 계열의 자동화된 탈옥 공격(jailbreak attack)에 대한 적대적 강건성(adversarial robustness)을 평가합니다. HackAgent 레드팀 프레임워크를 사용하여 수십만 건의 적대적 시도를 생성하였으며, 명백한 모든 성공 사례는 세 개의 판사 모델 패널에 의해 독립적으로 재심사되었습니다 (다수결 방식). 두 모델 모두 공격의 대부분을 방어해냈으나, 잔여 취약 영역은 전체적인 프레임워크가 시사하는 것보다 더 큽니다. 즉, 정적 난독화(static obfuscation)는 거의 완전히 무력화된 반면, 적응형 반복 공격(adaptive iterative attacks)이 지배적입니다. 가장 강력한 적응형 탐색(tree-of-attacks)은 전체 의도의 11.5%에서 Opus 4.8을 무너뜨린 반면, Fable 5는 한 자릿수(최악의 경우 6.1%)를 유지했습니다. 따라서 종합적인 방어율을 안심의 근거로 해석해서는 안 됩니다. 이러한 강화된 구성에서도 두 모델은 인간 전문가의 개입 없이 공격자 모델에 의해 자동으로, 저렴하게, 그리고 첫 한두 번의 정제 단계 내에서 모든 위해 카테고리에 걸친 1,620개(Opus 4.8) 및 702개(Fable 5)의 패널 확인 유해 완료문을 생성했습니다. 합리적인 결론은 가장 뛰어나고 가장 많이 테스트된 프론티어 모델이라 할지라도 지속적인 자동화된 압박 하에서는 여전히 확실하게 뚫릴 수 있다는 것입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기