arXiv논문2026. 06. 09. 12:49

공격과 방어 학습하기: GRPO를 통한 언어 모델의 적응형 레드팀 (Adaptive Red Teaming)

요약

GRPO를 활용하여 공격자와 방어자를 동시에 학습시키는 AdvGRPO 프레임워크를 제안합니다. 밀집 다채널 보상과 분리된 어드밴티지 정규화를 통해 GRPO의 불안정성을 해결하고, 효과적인 적응형 레드팀 학습을 가능하게 합니다.

핵심 포인트

GRPO 기반의 공격자-방어자 공동 학습 프레임워크 AdvGRPO 제안
밀집 다채널 보상 및 분리된 어드밴티지 정규화로 학습 안정성 확보
단일 턴에서 다중 턴 공격으로 이어지는 커리큘럼 학습 적용
기존 베이스라인 대비 뛰어난 안전성 벤치마크 성능 입증

AI 레드팀 (Red Teaming)은 진화하는 공격자와 방어자에 맞춰 지속적으로 적응해야 합니다. 강화학습 (Reinforcement Learning)은 새로운 공격을 발견하는 유망한 접근 방식을 제공하며, 공동 학습 (Co-training) 방법은 이와 병행하여 더욱 강력한 방어자를 생성할 수 있습니다. 최근 연구들은 PPO와 DPO를 적용하여 공격자-방어자 공동 학습의 효능을 입증했으나, 이러한 설정에서 GRPO는 불안정하다고 보고했습니다. 우리는 밀집 다채널 보상 (Dense Multi-channel Rewards)과 분리된 어드밴티지 정규화 (Decoupled Advantage Normalization)를 사용하여 GRPO를 공격자-방어자 공동 최적화에 활용 가능하게 만드는 공동 학습 프레임워크인 AdvGRPO를 소개합니다. 학습은 단일 턴 (Single-turn)에서 폐쇄 루프 다중 턴 (Closed-loop Multi-turn) 공격으로 이어지는 커리큘럼을 통해 진행된 후, 공격자 모델과 방어자 모델이 교대로 업데이트되는 공동 학습 부트스트래핑 (Bootstrapping) 단계로 넘어갑니다. 우리는 우리의 방법론이 매우 효과적이고 전이 가능한 (Transferable) 공격을 생성할 수 있으며, 공동 학습된 방어자가 안전성 벤치마크 (Safety Benchmarks)에서 베이스라인 (Baselines)보다 뛰어난 성능을 보임을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

공격과 방어 학습하기: GRPO를 통한 언어 모델의 적응형 레드팀 (Adaptive Red Teaming)

요약

핵심 포인트

댓글