본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 04. 20:18

Stable-GFlowNet: 대비적이고 견고한 LLM 레드 팀링을 위한 대조적 궤도 균형

요약

본 논문은 대규모 언어 모델(LLM)의 취약점을 능동적으로 찾아내는 레드 팀링 과정의 안정성 문제를 해결하기 위해 Stable-GFN (S-GFN)을 제안합니다. 기존 생성형 플로우 네트워크(GFN)는 훈련 불안정성과 모드 붕괴 문제가 심각하여 효과적인 공격 탐색에 어려움이 있었습니다. S-GFN은 GFN의 파티션 함수 추정을 제거하고, 노이즈 보상에 대한 견고한 마스킹 방법론 및 유창성 안정화기를 도입하여, 최적 정책을 유지하면서도 훨씬 안정적인 훈련 환경을 제공하며 뛰어난 공격 성능과 다양성을 입증했습니다.

핵심 포인트

  • LLM 레드 팀링은 취약점 식별에 필수적이지만, 효과적인 공격 탐색의 어려움이 존재한다.
  • 기존 GFN 기반 방법론은 훈련 불안정성과 모드 붕괴 문제로 인해 실제 적용에 한계가 있었다.
  • S-GFN은 GFN의 파티션 함수 추정을 제거하고 노이즈 보상 마스킹을 도입하여 안정성을 크게 향상시켰다.
  • 유창성 안정화기(Fluency Stabilizer)를 추가하여 모델이 지역 최적점에 갇히는 것을 방지했다.

대규모 언어 모델 (LLM) 레드 팀링은 LLM 의 취약점을 능동적으로 식별하는 필수적인 안전 확보 과정입니다. 레드 팀링에서 효과적이고 다양한 공격을 찾는 것은 중요하지만, 이를 동시에 달성하는 것은 어렵습니다. 분포 매칭을 수행하는 생성형 플로우 네트워크 (GFN) 는 유망한 방법이지만, 훈련 불안정성과 모드 붕괴로 유명합니다. 특히 레드 팀링에서의 불안정한 보상은 모드 붕괴를 가속화합니다. 우리는 GFN 의 파티션 함수 $Z$ 추정을 제거하고 훈련 불안정성을 줄인 Stable-GFN (S-GFN) 을 제안합니다. S-GFN 은 쌍wise 비교를 통해 Z 추정 회피하며, 노이즈 보상에 대한 견고한 마스킹 방법론을 활용합니다. 또한, 가짜 텍스트를 생성하는 지역 최적점에 모델이 갇히는 것을 방지하기 위해 유창성 안정화기를 제안합니다. S-GFN 은 GFN 의 최적 정책을 유지하면서 더 안정적인 훈련을 제공합니다. 우리는 다양한 설정에서 S-GFN 의 압도적인 공격 성능과 다양성을 입증했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0