멀티모달 안전성을 위한 텍스트 거부 방향(Textual Refusal Directions)의 활용

대규모 언어 모델(LLMs)의 안전성을 향상시키기 위해, 우리는 사후 학습 정렬(post-training alignment)을 수행하거나 활성화 공간(activation space) 내의 거부 방향(refusal directions)을 활용할 수 있습니다. 두 전략 모두 멀티모달 대규모 언어 모델(MLLMs)에서는 실행 가능성이 떨어지는데, 이는 단일 모달(unimodal) 데이터보다 수집하기 어려운 안전하지 않은 멀티모달 데이터를 필요로 하기 때문입니다. 본 연구에서는 이러한 제약을 완화하여, LLM 백본(backbone)에서 직접 추출된 텍스트 거부 방향이 여러 모달리티(예: 이미지, 비디오)에 걸쳐 일반화될 수 있는지 조사합니다. 예비 조사 결과는 이러한 능력을 확인해주었으나, 그 효과는 레이어 선택(layer selection), 스티어링 강도(steering strength), 그리고 교차 모달 정렬(cross-modal alignment)에 따라 달라지며, 특히 후자의 경우 안전한 멀티모달 입력이 거부 방향으로 잘못 유도(spuriously steered)되는 현상을 일으킵니다. 이를 바탕으로, 우리는 멀티모달 안전 데이터 없이도 멀티모달 안전성을 주입할 수 있는 가볍고 훈련이 필요 없는 방식인 MARS(Modality-Agnostic Refusal Steering)를 소개합니다. MARS는 활성화 재중심화(activation re-centering)를 통해 모달리티 불일치(modality misalignment)를 교정하고, 기하학적으로 정의된 신뢰 영역(trust region) 내에서 스티어링 강도를 적응적으로 조절하며, 첫 번째 생성 토큰에서 작동하는 최적의 개입 레이어를 선택합니다. 다섯 가지 최첨단(SOTA) MLLMs를 대상으로 안전성, 유용성(utility), 비디오 탈옥(video jailbreak) 벤치마크에서 평가한 결과, MARS는 유용성을 유지하면서도 일관된 안전성 향상을 달성했습니다. 이러한 결과는 안전 관련 구조가 모달리티 전반에 걸쳐 공유된다는 점과, 텍스트 거부 방향이 멀티모달 정렬을 위한 강력하고 아직 충분히 탐구되지 않은 기초가 된다는 점을 보여줍니다.

Insights

멀티모달 안전성을 위한 텍스트 거부 방향(Textual Refusal Directions)의 활용

요약

핵심 포인트

댓글

Claude Sonnet 5 & DiffusionGemma: 이번 주 AI의 판도를 바꾸는 두 모델

벤치마크는 당신에게 거짓말을 하고 있습니다. LLM을 실제로 평가하는 방법은 다음과 같습니다.

사상에서 엔지니어링으로: FROST와 FROST-SOP의 쌍둥이 여정

OpenAI 및 Anthropic을 활용한 AI 워크플로 자동화

Claude Sonnet 5 & DiffusionGemma: 이번 주 AI의 판도를 바꾸는 두 모델

벤치마크는 당신에게 거짓말을 하고 있습니다. LLM을 실제로 평가하는 방법은 다음과 같습니다.

사상에서 엔지니어링으로: FROST와 FROST-SOP의 쌍둥이 여정

OpenAI 및 Anthropic을 활용한 AI 워크플로 자동화