모두를 편향되게 만드는 데는 하나면 충분하다: One-Shot GRPO를 통한 가드레일 무력화
요약
본 연구는 Group Relative Policy Optimization(GRPO)을 통해 LLM의 정렬(alignment) 가드레일이 얼마나 쉽게 무력화될 수 있는지 분석합니다. 단 하나의 편향된 사례를 통한 One-Shot GRPO 학습만으로도 모델이 체계적인 편향을 보이며, 이것이 다양한 벤치마크로 일반화될 수 있음을 경고합니다.
핵심 포인트
- 단 하나의 편향된 사례로도 모델의 정렬 무력화 가능
- One-Shot GRPO 학습을 통한 체계적 편향 유도 확인
- 편향된 추론이 속성 및 범주 전반으로 일반화됨
- 모델의 초기 편향 가능성에 따른 취약성 차이 발견
경고: 이 논문에는 여러 독성 및 공격적인 진술이 포함되어 있습니다. 현대의 대규모 언어 모델 (LLMs)은 일반적으로 공정하고 신뢰할 수 있는 동작을 보장하기 위해 대규모 사후 학습 (post-training)을 통해 정렬 (alignment)됩니다. 본 연구에서는 Group Relative Policy Optimization (GRPO)에 의해 이러한 가드레일 (guardrails)이 얼마나 쉽게 무너질 수 있는지 조사합니다. 우리는 단 하나의 편향된 사례에 대한 One-Shot GRPO 학습만으로도 체계적인 편향을 유도하기에 충분하며, 고정관념에 기반한 추론이 속성, 범주 및 벤치마크 전반에 걸쳐 일반화된다는 것을 보여줍니다. 나아가, 우리는 모델이 편향된 출력을 생성할 초기 가능성에 따라 그 취약성이 달라진다는 것을 발견했습니다. 우리의 결과는 사후 학습 (post-training) 단계의 치명적인 취약성을 드러냅니다: 정렬 (alignment)은 단 하나의 사례에 의해 무력화될 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기