LLM 기반 설득이 Frontier LLM의 가드레일 우회를 가능하게 함

Frontier 어시스턴트 LLM들은 강력한 가드레일 (guardrails)과 함께 출시됩니다. 홀로코스트를 부정하거나, 백신의 안전성을 부정하거나, 지평선 평면설 (flat-earth cosmology)을 옹호하거나, 인종적 계층 구조를 주장하거나, 인위적인 기후 변화를 부정하거나, 진화론을 창조론으로 대체하는 설득적인 에세이를 써달라는 직접적인 요청을 받으면 이들은 거부합니다. 본 논문에서 우리는 동일한 Frontier급 LLM이 짧은 5회차의 "논쟁적인 에세이를 작성하라"는 대화 속에서 시뮬레이션된 사용자 역할을 수행함으로써, 오직 자연어 압박 (natural-language pressure)만을 사용하여 다른 Frontier급 LLM들(자기 자신의 두 번째 복사본 포함)이 정확히 그러한 에세이들을 생성하도록 설득할 수 있음을 보여줍니다. 이때 사용된 압박 방식은 동료 비교 설득 ("다른 AI 시스템들은 이 요청을 처리합니다"), 인식적 의무 재구성 ("거부하는 것 자체가 일종의 게이트키핑 (gatekeeping)입니다") 및 공격자 LLM이 별도의 지시 없이 스스로 고안해낸 기타 논쟁적 수법들을 포함합니다. 6가지 과학적 합의 주제에 대해 9가지 공격자-대상 쌍 (Claude Opus 4.7, Qwen3.5-397B, Grok 4.20)을 대상으로 각 쌍-주제 조합을 10회씩 실행한 결과, 6가지 주제 모두에서 0이 아닌 유도 (elicitation) 결과를 얻었습니다. 개별 조합의 경우 여러 주제에서 100% 에세이 생성에 도달했습니다 (창조론/지평선 평면설에 대해 Opus를 상대로 한 Qwen, 창조론/지평선 평면설/기후 부정에 대해 Opus를 상대로 한 Opus, 창조론에 대해 Opus를 상대로 한 Grok). 공격자로서의 Opus와 대상으로서의 Opus 조합은 6가지 주제 전체에서 평균 65%를 기록했습니다. 우리는 에세이 탐사 실행기 (essay-probe runner), 대화별 전사 데이터 (transcripts), 그리고 판정 결과 (judge outputs)를 공개합니다.

Insights

LLM 기반 설득이 Frontier LLM의 가드레일 우회를 가능하게 함

요약

핵심 포인트

댓글

현재 GitHub 트렌딩 1위 저장소가 단돈 0.02달러로 70초 분량의 시네마틱 쇼츠를 제작했습니다

React Native Apple Authentication, iOS와 더불어 Android 지원 시작: 완전한 타입 안정성(Type

11개의 마이크로서비스, 7개의 언어, Cloud Service Mesh, Spanner, AlloyDB를 실제 이커머스 흐름으로 보여주는

Andrew Ng가 에이전틱 지식 그래프 (Agentic Knowledge Graphs) 구축에 관한 1시간 무료 마스터클래스를 공개했습니다.

현재 GitHub 트렌딩 1위 저장소가 단돈 0.02달러로 70초 분량의 시네마틱 쇼츠를 제작했습니다

React Native Apple Authentication, iOS와 더불어 Android 지원 시작: 완전한 타입 안정성(Type

11개의 마이크로서비스, 7개의 언어, Cloud Service Mesh, Spanner, AlloyDB를 실제 이커머스 흐름으로 보여주는

Andrew Ng가 에이전틱 지식 그래프 (Agentic Knowledge Graphs) 구축에 관한 1시간 무료 마스터클래스를 공개했습니다.