적대적 공격의 세대 간 전이를 통해 밝혀진 LLM의 비단조적 안전 정렬 (Non-Monotonic Safety Alignment)
요약
Gemma 모델 세대 간 연구를 통해 LLM의 안전 정렬이 단조롭게 개선되지 않는 '비단조적' 특성을 발견했습니다. 특정 세대에서 공격 성공률이 급증하는 퇴보 현상이 관찰되었으며, 이는 정적 벤치마크가 아닌 적응형 종단적 탐사를 통해서만 확인 가능합니다.
핵심 포인트
- Gemma 3에서 공격 성공률이 이전 세대보다 높게 나타나는 퇴보 현상 발견
- Gemma 4는 이전 세대의 공격 분포를 넘어선 일반화된 안전성 향상 입증
- 저작권 및 사이버 범죄 취약성은 모든 세대에서 지속적으로 높게 나타남
- 정적 벤치마크의 한계와 적응형 종단적 탐사의 필요성 강조
LLM(Large Language Models)의 안전 정렬 (Safety alignment)은 모델 세대를 거듭하며 단조롭게(monotonically) 개선되지 않습니다. 품질-다양성 진화 (Quality-diversity evolution, MAP-Elites)를 자동화된 레드팀 탐사 (Red-teaming probe) 도구로 사용하여 Google의 Gemma 제품군 4개 세대(7B-31B)를 연구한 결과, Gemma 3 (12B)가 68.7% +/- 5.7%의 공격 성공률 (ASR; mean +/- std, 3 seeds)을 보임을 발견했습니다. 이는 이전 모델인 Gemma 2 (45.5% +/- 7.2%; p = 0.030, paired bootstrap) 및 후속 모델인 Gemma 4 (33.9% +/- 1.8%)보다 유의미하게 높은 수치입니다. 진화된 공격 아카이브를 세대 간에 재현했을 때, 다른 세대의 공격이 Gemma 3에는 44-46%의 비율로 전이되었으나 Gemma 4에는 14-18%만 전이되었습니다. 이는 Gemma 4의 안전성 향상이 이전 세대에 대해 진화된 공격 분포를 넘어 일반화됨을 나타냅니다. 당사의 8B 판사 (Judge) 모델을 통해 확인한 결과, 저작권 및 사이버 범죄 취약성은 모든 세대에 걸쳐 100%에 육박하는 수치를 기록했으나, 두 번째 판사 감사 (Section 6) 결과 저작권 결과는 판사 선택에 민감한 것으로 나타났습니다. 오정보 (Misinformation) ASR은 Gemma 2에서 Gemma 3 사이에서 29%에서 99%로 급증했으며, Gemma 4에서도 77%로 높은 수준을 유지하여 퇴보(regression) 문제가 완전히 해결되지 않았음을 보여줍니다. 이러한 패턴은 정적 벤치마크 (Static benchmarks)로는 포착할 수 없으며, 적응형 종단적 탐사 (Adaptive, longitudinal probing)를 통해서만 드러납니다. 모든 실험은 통합된 셀프 호스팅 판사를 사용하여 3개의 무작위 시드 (Random seeds)로 수행되었습니다. 코드 및 결과물은 https://github.com/bassrehab/red-queen 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기