arXiv논문2026. 05. 04. 20:18

Stable-GFlowNet: 대비적이고 견고한 LLM 레드 팀링을 위한 대조적 궤도 균형

요약

본 논문은 대규모 언어 모델(LLM)의 취약점을 능동적으로 찾아내는 레드 팀링 과정의 안정성 문제를 해결하기 위해 Stable-GFN (S-GFN)을 제안합니다. 기존 생성형 플로우 네트워크(GFN)는 훈련 불안정성과 모드 붕괴 문제가 심각하여 효과적인 공격 탐색에 어려움이 있었습니다. S-GFN은 GFN의 파티션 함수 추정을 제거하고, 노이즈 보상에 대한 견고한 마스킹 방법론 및 유창성 안정화기를 도입하여, 최적 정책을 유지하면서도 훨씬 안정적인 훈련 환경을 제공하며 뛰어난 공격 성능과 다양성을 입증했습니다.

핵심 포인트

LLM 레드 팀링은 취약점 식별에 필수적이지만, 효과적인 공격 탐색의 어려움이 존재한다.
기존 GFN 기반 방법론은 훈련 불안정성과 모드 붕괴 문제로 인해 실제 적용에 한계가 있었다.
S-GFN은 GFN의 파티션 함수 추정을 제거하고 노이즈 보상 마스킹을 도입하여 안정성을 크게 향상시켰다.
유창성 안정화기(Fluency Stabilizer)를 추가하여 모델이 지역 최적점에 갇히는 것을 방지했다.

대규모 언어 모델 (LLM) 레드 팀링은 LLM 의 취약점을 능동적으로 식별하는 필수적인 안전 확보 과정입니다. 레드 팀링에서 효과적이고 다양한 공격을 찾는 것은 중요하지만, 이를 동시에 달성하는 것은 어렵습니다. 분포 매칭을 수행하는 생성형 플로우 네트워크 (GFN) 는 유망한 방법이지만, 훈련 불안정성과 모드 붕괴로 유명합니다. 특히 레드 팀링에서의 불안정한 보상은 모드 붕괴를 가속화합니다. 우리는 GFN 의 파티션 함수 $Z$ 추정을 제거하고 훈련 불안정성을 줄인 Stable-GFN (S-GFN) 을 제안합니다. S-GFN 은 쌍wise 비교를 통해 Z 추정 회피하며, 노이즈 보상에 대한 견고한 마스킹 방법론을 활용합니다. 또한, 가짜 텍스트를 생성하는 지역 최적점에 모델이 갇히는 것을 방지하기 위해 유창성 안정화기를 제안합니다. S-GFN 은 GFN 의 최적 정책을 유지하면서 더 안정적인 훈련을 제공합니다. 우리는 다양한 설정에서 S-GFN 의 압도적인 공격 성능과 다양성을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Stable-GFlowNet: 대비적이고 견고한 LLM 레드 팀링을 위한 대조적 궤도 균형

요약

핵심 포인트

댓글