온라인 재귀적 MLLM 편집을 위한 멀티모달 지식 편집 범위 제한 일반화
요약
MLLM의 지속적인 지식 편집 시 발생하는 의미론적 경계 제어 문제를 해결하기 위한 ScopeEdit를 제안합니다. ScopeEdit는 국소 흡수 분기와 증거 게이트 공유 일반화 분기를 통해 편집의 전파 범위를 정밀하게 제어합니다.
핵심 포인트
- 편집 신뢰성과 장기 안정성을 유지하며 의미론적 경계 제어
- ScopeEdit: 국소 흡수 및 공유 일반화 분기를 통한 범위 인식 편집
- 교차 모달 전이와 범위 외 국소성 사이의 트레이드오프 개선
- Sherman-Morrison 재귀를 활용한 일정한 편집 오버헤드 유지
온라인 멀티모달 지식 편집 (Online multimodal knowledge editing)은 제한된 오버헤드와 무관한 동작에 대한 최소한의 방해를 유지하면서, 멀티모달 거대 언어 모델 (MLLMs)에 지속적인 시각-텍스트 수정 스트림을 주입하는 것을 요구합니다. 기존의 편집기들은 주로 편집 신뢰성 (edit reliability)과 장기적 안정성 (long-horizon stability)을 강조하지만, 각 편집의 의미론적 경계 (semantic boundary)를 제어하는 경우는 드뭅니다. 편집 후의 동작과 내부 뉴런 활동에 대한 우리의 예비 분석은 신뢰할 수 있는 편집 뒤에 존재하는 범위 격차 (scope gap)를 드러냅니다. 즉, 인스턴스 수준의 성공이 유효한 교차 모달 변형 (cross-modal variants)으로의 전이를 보장하지도 않으며, 무관한 입력으로의 누출 (leakage)을 방지하지도 못하는 반면, 편집 관련 교차 모달 응답은 더 깊은 의미론적 계층 (semantic layers)에 집중되어 있습니다. 따라서 우리는 온라인 MLLM 편집을 단순히 하나의 인스턴스를 수정하는 것에서 각 편집의 전파 경계 (propagation boundary)를 제어하는 것으로 재정의하여, 편집 범위 제한 일반화 (Edit-Scoped Generalization)를 공식화합니다. 이를 위해 우리는 각 업데이트를 모달리티 국소 흡수 분기 (modality-local absorption branch)와 증거 게이트 공유 일반화 분기 (evidence-gated shared generalization branch)로 분해하는 범위 인식 온라인 편집기인 ScopeEdit를 제안합니다. 국소 분기는 안정적인 편집 흡수를 지원하는 반면, 공유 분기는 시각적 및 텍스트 증거가 충분히 정렬되었을 때만 교차 모달 전파를 가능하게 합니다. 두 분기 모두 직교하는 저차원 공간 (orthogonal low-rank spaces)에서 범위가 분리된 쓰기 기하학 (scope-separated write geometries)을 수행하며, Sherman--Morrison 재귀를 통해 분기별 프리컨디셔너 (preconditioners)를 유지하여 편집당 일정한 오버헤드를 산출합니다. 다양한 벤치마크, 장기 편집 스트림, MLLM 백본, 실제 VLKEB 시나리오 및 복잡한 시각-언어 아키텍처에 걸친 광범위한 실험을 통해, ScopeEdit가 편집 신뢰성, 안정성 및 온라인 효율성을 유지하면서 범위 내 교차 모달 전이 (in-scope cross-modal transfer)와 범위 외 국소성 (out-of-scope locality) 사이의 트레이드오프를 일관되게 개선함을 보여줍니다. 우리의 코드는 https://github.com/lab-klc/ScopeEdit 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기