대규모 언어 모델(LLM)을 위한 문맥 불변적 안전 정렬(Context-Invariant Safety Alignment)을 향하여

선호도 기반 사후 학습(Preference-based post-training)은 대규모 언어 모델(LLM)을 인간의 의도에 맞게 정렬하지만, 안전 행동은 종종 취약한 상태로 남습니다. 모델은 표준 프롬프트(Standard prompt)에서는 유해한 요청을 거부할 수 있지만, 동일한 의도가 적대적인 문구(Adversarial wording)로 포장될 경우 이를 따를 수 있습니다. 우리는 견고한 안전을 위해 표면적 형태(Surface form)가 아닌 근본적인 의도에 따라 행동이 결정되는 문맥 불변적 정렬(Context-invariant alignment)이 필요하다고 제안합니다. 정렬 과정에서 불변성을 강제하는 것은 모든 학습 신호가 동일하게 신뢰할 수 있는 것은 아니기 때문에 어렵습니다. 일부 프롬프트 변형에 대해서는 검증 가능한 피드백(예: 객관식 문제)을 얻을 수 있는 반면, 개방형(Open-ended) 변형에 대해서는 일반적으로 노이즈가 많고 조작 가능한 보상 대리 모델(Reward proxies, 예: 학습된 판사)에 의존해야 합니다. 그 결과, 표준적인 대칭적 불변성 정규화(Symmetric invariance regularizers)는 개방형 견고성을 개선하는 대신 신뢰할 수 있는 변형의 성능을 낮춤으로써 문맥 간 불일치를 줄이게 됩니다. 이를 해결하기 위해, 우리는 검증 가능한 프롬프트를 앵커(Anchor)로 취급하고, stop-gradient 타겟을 사용하여 개방형 변형만을 앵커 성능을 향하도록 정규화하는 앵커 불변성 정규화(Anchor Invariance Regularization, AIR)를 도입합니다. AIR는 플러그인 형태의 보조 손실(Auxiliary loss)로 구현되며, 이질적 프롬프트 그룹화(Heterogeneous prompt grouping)를 통해 그룹 기반 선호도 최적화(예: GRPO)와 결합됩니다. 안전(Safety), 도덕적 추론(Moral Reasoning), 수학(Math) 전반에 걸쳐 AIR는 문맥 불변성을 개선하여, 분포 내(In-distribution) 그룹 정확도를 12.71% 향상시키고 분포 외(Out-of-distribution) 일관성을 33.49% 높임으로써 안전 제약 조건이 적대적 프레이밍(Adversarial framings)에 대해 견고하게 만듭니다.

Insights

대규모 언어 모델(LLM)을 위한 문맥 불변적 안전 정렬(Context-Invariant Safety Alignment)을 향하여

요약

핵심 포인트

댓글

선형화의 핵심: 분석 기반 트랜스포머 선형화

Co-LMLM: 연속 질의 기반 제한 메모리 언어 모델

SkillCenter: 자율 AI 에이전트를 위한 대규모 출처 기반 스킬 라이브러리

OpenAI, GPT‑Live 공개

선형화의 핵심: 분석 기반 트랜스포머 선형화

Co-LMLM: 연속 질의 기반 제한 메모리 언어 모델

SkillCenter: 자율 AI 에이전트를 위한 대규모 출처 기반 스킬 라이브러리

OpenAI, GPT‑Live 공개