멀티모달 안전성을 위한 텍스트 거부 방향(Textual Refusal Directions)의 활용
요약
멀티모달 모델의 안전성을 높이기 위해 텍스트 거부 방향을 활용하는 MARS 기법을 제안합니다. 별도의 멀티모달 안전 데이터 없이도 LLM의 텍스트 거부 방향을 이미지와 비디오 등 다양한 모달리티로 일반화하여 안전성을 강화할 수 있습니다.
핵심 포인트
- 텍스트 거부 방향을 활용한 모달리티 불가지론적 안전성 주입
- 데이터 수집이 어려운 멀티모달 안전 데이터 제약 완화
- MARS: 활성화 재중심화 및 적응적 스티어링을 통한 모달리티 불일치 교정
- SOTA MLLM 대상 평가 결과, 유용성을 유지하며 안전성 향상 확인
대규모 언어 모델(LLMs)의 안전성을 향상시키기 위해, 우리는 사후 학습 정렬(post-training alignment)을 수행하거나 활성화 공간(activation space) 내의 거부 방향(refusal directions)을 활용할 수 있습니다. 두 전략 모두 멀티모달 대규모 언어 모델(MLLMs)에서는 실행 가능성이 떨어지는데, 이는 단일 모달(unimodal) 데이터보다 수집하기 어려운 안전하지 않은 멀티모달 데이터를 필요로 하기 때문입니다. 본 연구에서는 이러한 제약을 완화하여, LLM 백본(backbone)에서 직접 추출된 텍스트 거부 방향이 여러 모달리티(예: 이미지, 비디오)에 걸쳐 일반화될 수 있는지 조사합니다. 예비 조사 결과는 이러한 능력을 확인해주었으나, 그 효과는 레이어 선택(layer selection), 스티어링 강도(steering strength), 그리고 교차 모달 정렬(cross-modal alignment)에 따라 달라지며, 특히 후자의 경우 안전한 멀티모달 입력이 거부 방향으로 잘못 유도(spuriously steered)되는 현상을 일으킵니다. 이를 바탕으로, 우리는 멀티모달 안전 데이터 없이도 멀티모달 안전성을 주입할 수 있는 가볍고 훈련이 필요 없는 방식인 MARS(Modality-Agnostic Refusal Steering)를 소개합니다. MARS는 활성화 재중심화(activation re-centering)를 통해 모달리티 불일치(modality misalignment)를 교정하고, 기하학적으로 정의된 신뢰 영역(trust region) 내에서 스티어링 강도를 적응적으로 조절하며, 첫 번째 생성 토큰에서 작동하는 최적의 개입 레이어를 선택합니다. 다섯 가지 최첨단(SOTA) MLLMs를 대상으로 안전성, 유용성(utility), 비디오 탈옥(video jailbreak) 벤치마크에서 평가한 결과, MARS는 유용성을 유지하면서도 일관된 안전성 향상을 달성했습니다. 이러한 결과는 안전 관련 구조가 모달리티 전반에 걸쳐 공유된다는 점과, 텍스트 거부 방향이 멀티모달 정렬을 위한 강력하고 아직 충분히 탐구되지 않은 기초가 된다는 점을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기