arXiv논문2026. 06. 10. 11:15

모두를 편향되게 만드는 데는 하나면 충분하다: One-Shot GRPO를 통한 가드레일 무력화

요약

본 연구는 Group Relative Policy Optimization(GRPO)을 통해 LLM의 정렬(alignment) 가드레일이 얼마나 쉽게 무력화될 수 있는지 분석합니다. 단 하나의 편향된 사례를 통한 One-Shot GRPO 학습만으로도 모델이 체계적인 편향을 보이며, 이것이 다양한 벤치마크로 일반화될 수 있음을 경고합니다.

핵심 포인트

단 하나의 편향된 사례로도 모델의 정렬 무력화 가능
One-Shot GRPO 학습을 통한 체계적 편향 유도 확인
편향된 추론이 속성 및 범주 전반으로 일반화됨
모델의 초기 편향 가능성에 따른 취약성 차이 발견

경고: 이 논문에는 여러 독성 및 공격적인 진술이 포함되어 있습니다. 현대의 대규모 언어 모델 (LLMs)은 일반적으로 공정하고 신뢰할 수 있는 동작을 보장하기 위해 대규모 사후 학습 (post-training)을 통해 정렬 (alignment)됩니다. 본 연구에서는 Group Relative Policy Optimization (GRPO)에 의해 이러한 가드레일 (guardrails)이 얼마나 쉽게 무너질 수 있는지 조사합니다. 우리는 단 하나의 편향된 사례에 대한 One-Shot GRPO 학습만으로도 체계적인 편향을 유도하기에 충분하며, 고정관념에 기반한 추론이 속성, 범주 및 벤치마크 전반에 걸쳐 일반화된다는 것을 보여줍니다. 나아가, 우리는 모델이 편향된 출력을 생성할 초기 가능성에 따라 그 취약성이 달라진다는 것을 발견했습니다. 우리의 결과는 사후 학습 (post-training) 단계의 치명적인 취약성을 드러냅니다: 정렬 (alignment)은 단 하나의 사례에 의해 무력화될 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

모두를 편향되게 만드는 데는 하나면 충분하다: One-Shot GRPO를 통한 가드레일 무력화

요약

핵심 포인트

댓글