대규모 언어 모델(LLM)을 위한 문맥 불변적 안전 정렬(Context-Invariant Safety Alignment)을 향하여
요약
LLM이 적대적인 문구로 포장된 유해한 요청에 취약해지는 문제를 해결하기 위해, 표면적 형태가 아닌 근본적 의도에 따라 행동하는 '문맥 불변적 정렬'의 필요성을 제안합니다. 이를 위해 검증 가능한 프롬프트를 앵커로 활용하여 개방형 변형의 성능을 개선하는 '앵커 불변성 정규화(AIR)' 기법을 도입했습니다. AIR는 안전, 도덕적 추론, 수학 분야에서 적대적 프레이밍에 대한 견고성을 크게 향상시켰습니다.
핵심 포인트
- 표준 프롬프트에서는 안전하지만 적대적 문구에는 취약한 LLM의 정렬 한계 지적
- 검증 가능한 프롬프트를 앵커로 사용하는 '앵커 불변성 정규화(AIR)' 방법론 제안
- AIR는 플러그인 형태의 보조 손실로 구현되며 GRPO와 같은 그룹 기반 최적화와 결합 가능
- 실험 결과, 분포 내 정확도 12.71% 향상 및 분포 외 일관성 33.49% 향상 달성
선호도 기반 사후 학습(Preference-based post-training)은 대규모 언어 모델(LLM)을 인간의 의도에 맞게 정렬하지만, 안전 행동은 종종 취약한 상태로 남습니다. 모델은 표준 프롬프트(Standard prompt)에서는 유해한 요청을 거부할 수 있지만, 동일한 의도가 적대적인 문구(Adversarial wording)로 포장될 경우 이를 따를 수 있습니다. 우리는 견고한 안전을 위해 표면적 형태(Surface form)가 아닌 근본적인 의도에 따라 행동이 결정되는 문맥 불변적 정렬(Context-invariant alignment)이 필요하다고 제안합니다. 정렬 과정에서 불변성을 강제하는 것은 모든 학습 신호가 동일하게 신뢰할 수 있는 것은 아니기 때문에 어렵습니다. 일부 프롬프트 변형에 대해서는 검증 가능한 피드백(예: 객관식 문제)을 얻을 수 있는 반면, 개방형(Open-ended) 변형에 대해서는 일반적으로 노이즈가 많고 조작 가능한 보상 대리 모델(Reward proxies, 예: 학습된 판사)에 의존해야 합니다. 그 결과, 표준적인 대칭적 불변성 정규화(Symmetric invariance regularizers)는 개방형 견고성을 개선하는 대신 신뢰할 수 있는 변형의 성능을 낮춤으로써 문맥 간 불일치를 줄이게 됩니다. 이를 해결하기 위해, 우리는 검증 가능한 프롬프트를 앵커(Anchor)로 취급하고, stop-gradient 타겟을 사용하여 개방형 변형만을 앵커 성능을 향하도록 정규화하는 앵커 불변성 정규화(Anchor Invariance Regularization, AIR)를 도입합니다. AIR는 플러그인 형태의 보조 손실(Auxiliary loss)로 구현되며, 이질적 프롬프트 그룹화(Heterogeneous prompt grouping)를 통해 그룹 기반 선호도 최적화(예: GRPO)와 결합됩니다. 안전(Safety), 도덕적 추론(Moral Reasoning), 수학(Math) 전반에 걸쳐 AIR는 문맥 불변성을 개선하여, 분포 내(In-distribution) 그룹 정확도를 12.71% 향상시키고 분포 외(Out-of-distribution) 일관성을 33.49% 높임으로써 안전 제약 조건이 적대적 프레이밍(Adversarial framings)에 대해 견고하게 만듭니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기