얕은 안전성을 넘어선 추론 시점의 취약성: 생성 경로(Generation Trajectories)를 따른 정렬
요약
LLM의 안전 정렬이 초기 토큰에만 집중되어 생성 과정 중 발생하는 토큰 주입에 취약하다는 점을 분석합니다. 생성 경로(Generation Trajectories)를 따라 모델을 직접 정렬함으로써 추론 시점의 공격에 대한 강건성을 높이는 새로운 방법론을 제안합니다.
핵심 포인트
- 기존 정렬 방식은 생성 중간 단계의 토큰 주입에 취약한 '얕은 안전성'을 가짐
- 은닉 상태의 거절 방향 정렬 정도가 생성 강건성을 예측하지 못함
- 생성 경로 상의 섭동을 시뮬레이션하여 모델을 직접 정렬하는 방식 제안
- 출력물뿐만 아니라 생성 과정 자체에 대한 학습이 강건한 안전 정렬의 핵심임
안전 정렬된 대규모 언어 모델 (LLMs)은 생성 과정을 유해한 출력으로 유도하는 추론 시점의 개입에 여전히 취약합니다. 최근 연구들은 이를 정렬이 초기 몇 개의 출력 토큰에만 집중되는 '얕은 안전성 (shallow safety)' 때문이라고 분석합니다. 본 연구에서는 얕은 안전성이 더 넓은 의미의 '추론 시점 취약성 (inference-time vulnerability)'의 특수한 사례임을 보여줍니다. 즉, 생성 단계 중 어느 지점에서든 짧은 토큰 주입 (token injections)이 발생하면 이후의 안전 행동을 실질적으로 변화시킬 수 있습니다. 또한, 모델의 은닉 상태 (hidden states) 내 거절 방향 (refusal directions)에 대한 정렬 정도가 이러한 주입에 대한 강건성 (robustness)을 예측하지 못한다는 점을 발견하였으며, 이는 내부 상태만으로는 섭동 (perturbation) 하에서의 생성 행동을 결정할 수 없음을 드러냅니다. 이를 해결하기 위해, 우리는 시퀀스 중간의 섭동을 시뮬레이션하여 구축된 생성 경로 (generation trajectories) 상에서 모델을 직접 정렬하며, 이것이 시퀀스 중간 주입에 대한 강건성을 향상시키고 초기 토큰 생성을 악용하는 공격에도 일반화됨을 보여줍니다. 우리의 연구는 강건한 안전 정렬을 위해서는 출력물뿐만 아니라 생성 과정 자체에 대한 학습이 필요함을 주장합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기