LLM에 대한 적대적 공격
요약
ChatGPT 출시 이후 대규모 언어 모델(LLM) 사용이 급증함에 따라, 개발자들은 RLHF와 같은 정렬 과정을 통해 안전성을 확보하기 위해 노력해왔습니다. 하지만 적대적 공격이나 Jailbreak 프롬프트는 모델을 의도치 않은 유해한 콘텐츠를 출력하도록 만들 수 있는 잠재적인 위협입니다. 기존의 적대적 공격 연구가 연속적인 이미지 데이터에 집중되어 있어, 이산적인 텍스트 데이터에 대한 공격은 그래디언트 신호 부재로 인해 더 어렵다고 여겨져 왔습니다.
핵심 포인트
- LLM 사용 증가와 안전성 확보 노력 (RLHF 등)의 중요성
- 적대적 공격 및 Jailbreak 프롬프트는 LLM의 잠재적인 취약점이다.
- 기존 적대적 공격 연구는 연속적인 이미지 데이터에 집중되어 왔다.
- 텍스트(이산 데이터)에 대한 공격은 그래디언트 신호 부재로 인해 더 어려운 과제이다.
실제 세계에서 대규모 언어 모델의 사용은 ChatGPT 의 출시로 인해 크게 가속화되었습니다. 우리는 (OpenAI 의 제 팀을 포함하여, 그들에게 박수를 보냅니다) 정렬 과정에서 모델에 기본 안전한 행동을 구축하는 데 많은 노력을 기울였습니다 (예: RLHF 를 통해). 그러나 적대적 공격이나 재일break 프롬프트는 모델을 원하지 않는 내용을 출력하도록 잠재적으로 유발할 수 있습니다. 적대적 공격에 대한 대량의 기초 작업은 이미지에 집중되어 있으며, 이는 연속적이고 고차원적인 공간에서 작동합니다. 텍스트와 같은 이산 데이터에 대한 공격은 직접적인 그래디언트 신호의 부재로 인해 훨씬 더 어렵다고 간주되어 왔습니다. 제 이전 게시글인 'Controllable Text Generation' 은 이 주제와 매우 관련이 있습니다. LLM 을 공격한다는 것은 본질적으로 모델을 특정 유형의 (불안전한) 콘텐츠를 출력하도록 제어하는 것과 같기 때문입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Lilian Weng Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기