Stable-GFlowNet: 대비적이고 견고한 LLM 레드 팀링을 위한 대조적 궤도 균형
요약
본 논문은 대규모 언어 모델(LLM)의 취약점을 능동적으로 찾아내는 레드 팀링 과정의 안정성 문제를 해결하기 위해 Stable-GFN (S-GFN)을 제안합니다. 기존 생성형 플로우 네트워크(GFN)는 훈련 불안정성과 모드 붕괴 문제가 심각하여 효과적인 공격 탐색에 어려움이 있었습니다. S-GFN은 GFN의 파티션 함수 추정을 제거하고, 노이즈 보상에 대한 견고한 마스킹 방법론 및 유창성 안정화기를 도입하여, 최적 정책을 유지하면서도 훨씬 안정적인 훈련 환경을 제공하며 뛰어난 공격 성능과 다양성을 입증했습니다.
핵심 포인트
- LLM 레드 팀링은 취약점 식별에 필수적이지만, 효과적인 공격 탐색의 어려움이 존재한다.
- 기존 GFN 기반 방법론은 훈련 불안정성과 모드 붕괴 문제로 인해 실제 적용에 한계가 있었다.
- S-GFN은 GFN의 파티션 함수 추정을 제거하고 노이즈 보상 마스킹을 도입하여 안정성을 크게 향상시켰다.
- 유창성 안정화기(Fluency Stabilizer)를 추가하여 모델이 지역 최적점에 갇히는 것을 방지했다.
대규모 언어 모델 (LLM) 레드 팀링은 LLM 의 취약점을 능동적으로 식별하는 필수적인 안전 확보 과정입니다. 레드 팀링에서 효과적이고 다양한 공격을 찾는 것은 중요하지만, 이를 동시에 달성하는 것은 어렵습니다. 분포 매칭을 수행하는 생성형 플로우 네트워크 (GFN) 는 유망한 방법이지만, 훈련 불안정성과 모드 붕괴로 유명합니다. 특히 레드 팀링에서의 불안정한 보상은 모드 붕괴를 가속화합니다. 우리는 GFN 의 파티션 함수 $Z$ 추정을 제거하고 훈련 불안정성을 줄인 Stable-GFN (S-GFN) 을 제안합니다. S-GFN 은 쌍wise 비교를 통해 Z 추정 회피하며, 노이즈 보상에 대한 견고한 마스킹 방법론을 활용합니다. 또한, 가짜 텍스트를 생성하는 지역 최적점에 모델이 갇히는 것을 방지하기 위해 유창성 안정화기를 제안합니다. S-GFN 은 GFN 의 최적 정책을 유지하면서 더 안정적인 훈련을 제공합니다. 우리는 다양한 설정에서 S-GFN 의 압도적인 공격 성능과 다양성을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기