arXiv논문2026. 05. 25. 11:21

이진 편집을 넘어: 적대적 부분 공간 정렬을 통한 강건한 멀티모달 지식 편집

요약

멀티모달 거대 언어 모델(MLLMs)의 지식 편집 시 발생하는 일반성 문제를 해결하기 위한 연구입니다. 적대적 부분 공간 정렬을 통해 의미론적으로 유사한 입력에 대해서도 일관된 편집 효과를 유지하는 방법을 제안합니다.

핵심 포인트

멀티모달 지식 편집의 일반성(Generality) 한계 극복
잠재적 적대적 강건화(LAR)를 통한 취약한 의미론적 영역 탐색
순위 제한 부분 공간 학습(RCSL)으로 적대적 표현의 저차원 정렬 강제
의미론적 변형에 강건한 멀티모달 지식 업데이트 메커니즘 제안

멀티모달 거대 언어 모델 (MLLMs)은 기존 능력을 저하시키지 않으면서 지식을 업데이트할 수 있는 효율적인 메커니즘이 필요합니다. 내재적 멀티모달 지식 편집 (Intrinsic multimodal knowledge editing)은 강력한 신뢰성 (Reliability)과 국소성 (Locality)을 달성하지만, 의미론적으로 동등한 시각적 및 언어적 변형 전반에 걸쳐 편집을 전파하지 못하는 등 일반성 (Generality)이 제한되는 경우가 많습니다. 이러한 문제는 명시적인 의미론적 감독 (Semantic supervision)의 부재, 경직된 편집 범위, 그리고 고차원 멀티모달 공간에서 개별 샘플에 편향된 앵커링 (Anchoring)으로 인해 발생합니다. 본 연구에서는 일반성을 명시적으로 목표로 함으로써 강건한 내재적 멀티모달 지식 편집을 다룹니다. 우리는 의미론적으로 동등한 멀티모달 입력을 그룹화하는 지식 단위 (Knowledge units)를 통해 강건성을 공식화하고, 각 단위 내에서의 일관된 예측을 일반성으로 정의합니다. 취약한 의미론적 영역을 드러내기 위해, 우리는 결합 잠재 공간 (Joint latent space)에서 적대적이면서도 의미론적으로 일관된 변형을 생성하는 잠재적 적대적 강건화 (Latent Adversarial Robustification, LAR)를 도입합니다. 나아가, 우리는 특이값 (Singular value) 기반 목적 함수를 통해 편집 레이어에서 적대적 표현의 저차원 정렬을 강제하는 순위 제한 부분 공간 학습 (Rank-Constrained Subspace Learning, RCSL)을 제안합니다. 광범위한 분석을 통해 ASAM의 효과를 실증적으로 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

이진 편집을 넘어: 적대적 부분 공간 정렬을 통한 강건한 멀티모달 지식 편집

요약

핵심 포인트

댓글