arXiv논문2026. 06. 03. 12:13

다국어 멀티모달 거대 언어 모델(Multimodal Large Language Models)에서의 적대적 강건성 및 안전 정렬(Safety

요약

본 연구는 다국어 멀티모달 거대 언어 모델(MLLM)의 적대적 강건성과 안전 정렬을 체계적으로 분석합니다. 12개 언어를 대상으로 실험한 결과, 공격의 교차 언어 전이성과 저자원 언어에서 발생하는 '실패에 의한 안전(safety-by-failure)' 현상을 규명했습니다.

핵심 포인트

적대적 공격의 강력한 교차 언어 전이성 확인
저자원 언어의 안전성은 이해 부족에 의한 '실패에 의한 안전'일 가능성 존재
단순 미세 조정보다 훈련 전반의 깊은 다국어 통합이 진정한 안전 정렬을 유도
Qwen3-VL과 같은 모델은 언어 전반에서 능동적 거부 능력을 보여줌

멀티모달 거대 언어 모델(Multimodal Large Language Models, MLLMs)은 시각적 인지(visual perception)를 언어 추론에 통합하며, 이로 인해 적대적 공격(adversarial attacks)에 취약한 지속적인 공격 표면(attack surface)을 노출합니다. MLLM의 강건성(robustness)에 관한 기존 연구는 주로 영어 중심의 작업에 집중되어 있어, 다국어 동작에 대한 탐구는 미비한 상태입니다. 본 연구에서는 12개의 다양한 언어를 대상으로 적대적 강건성 및 멀티모달 안전성(multimodal safety)을 체계적으로 연구함으로써 이러한 공백을 메우며, 지시어 튜닝(instruction tuning)을 통해 다국어 능력을 습득한 오픈 소스 MLLM들을 평가합니다. 그래디언트 기반 공격(Gradient-based attacks)은 전이 가능한 다국어 취약성을 드러냅니다. 즉, 한 언어에서 최적화된 적대적 이미지(adversarial images)가 다른 언어에서도 계속해서 실패를 유도하며, 이는 강력한 교차 언어 전이성(cross-lingual transferability)을 입증합니다. 다국어 안전성은 모델이 유해한 지시를 얼마나 효과적으로 검색하거나 해석하느냐에 따라 더욱 차이를 보입니다. 텍스트를 통해 유해한 의도가 전달될 때, 언어적 근거(linguistic grounding)가 더 강력한 언어일수록 오용을 허용하는 응답을 더 자주 유도하는 반면, 근거가 약한 언어는 유해한 출력을 덜 생성합니다. 이미지 내에 타이포그래피 콘텐츠(typographic content)로 포함될 경우, 영어 스크립트는 안정적으로 인식되고 따르는 반면, 비영어 스크립트는 비전 인코더(vision encoder)에 의해 파싱되는 경우가 드뭅니다. 따라서 저자원 언어(low-resource languages)는 더 안전해 보일 수 있으나, 이는 진정한 정렬(alignment)이라기보다 이해 및 시각적 근거(visual-grounding) 실패로 인한 인위적인 결과이며, 우리는 이를 '실패에 의한 안전(safety-by-failure)' 현상이라 명명합니다. 이와 대조적으로, Qwen3-VL과 같이 지시어 튜닝 단계뿐만 아니라 훈련 단계 전반에 걸쳐 다국어 능력을 구축한 MLLM은 이해 실패를 은폐하는 대신 언어 전반에 걸쳐 능동적인 거부(active refusal)를 유지하며 진정한 교차 언어 안전성을 보여줍니다. 번역된 지시어 데이터로 미세 조정(fine-tuning)하는 것과 같은 얕은 다국어 적응(shallow multilingual adaptation)은 저자원 언어에서 착시적 안전성(illusory safety)을 만드는 표면적인 이해를 생성할 수 있지만, 훈련 단계 전반에 걸친 깊은 통합은 진정한 다국어 안전 정렬(multilingual safety alignment)로 이어집니다.

AI 자동 생성 콘텐츠

원문 바로가기

다국어 멀티모달 거대 언어 모델(Multimodal Large Language Models)에서의 적대적 강건성 및 안전 정렬(Safety

요약

핵심 포인트

댓글