온라인 재귀적 MLLM 편집을 위한 멀티모달 지식 편집 범위 제한 일반화

온라인 멀티모달 지식 편집 (Online multimodal knowledge editing)은 제한된 오버헤드와 무관한 동작에 대한 최소한의 방해를 유지하면서, 멀티모달 거대 언어 모델 (MLLMs)에 지속적인 시각-텍스트 수정 스트림을 주입하는 것을 요구합니다. 기존의 편집기들은 주로 편집 신뢰성 (edit reliability)과 장기적 안정성 (long-horizon stability)을 강조하지만, 각 편집의 의미론적 경계 (semantic boundary)를 제어하는 경우는 드뭅니다. 편집 후의 동작과 내부 뉴런 활동에 대한 우리의 예비 분석은 신뢰할 수 있는 편집 뒤에 존재하는 범위 격차 (scope gap)를 드러냅니다. 즉, 인스턴스 수준의 성공이 유효한 교차 모달 변형 (cross-modal variants)으로의 전이를 보장하지도 않으며, 무관한 입력으로의 누출 (leakage)을 방지하지도 못하는 반면, 편집 관련 교차 모달 응답은 더 깊은 의미론적 계층 (semantic layers)에 집중되어 있습니다. 따라서 우리는 온라인 MLLM 편집을 단순히 하나의 인스턴스를 수정하는 것에서 각 편집의 전파 경계 (propagation boundary)를 제어하는 것으로 재정의하여, 편집 범위 제한 일반화 (Edit-Scoped Generalization)를 공식화합니다. 이를 위해 우리는 각 업데이트를 모달리티 국소 흡수 분기 (modality-local absorption branch)와 증거 게이트 공유 일반화 분기 (evidence-gated shared generalization branch)로 분해하는 범위 인식 온라인 편집기인 ScopeEdit를 제안합니다. 국소 분기는 안정적인 편집 흡수를 지원하는 반면, 공유 분기는 시각적 및 텍스트 증거가 충분히 정렬되었을 때만 교차 모달 전파를 가능하게 합니다. 두 분기 모두 직교하는 저차원 공간 (orthogonal low-rank spaces)에서 범위가 분리된 쓰기 기하학 (scope-separated write geometries)을 수행하며, Sherman--Morrison 재귀를 통해 분기별 프리컨디셔너 (preconditioners)를 유지하여 편집당 일정한 오버헤드를 산출합니다. 다양한 벤치마크, 장기 편집 스트림, MLLM 백본, 실제 VLKEB 시나리오 및 복잡한 시각-언어 아키텍처에 걸친 광범위한 실험을 통해, ScopeEdit가 편집 신뢰성, 안정성 및 온라인 효율성을 유지하면서 범위 내 교차 모달 전이 (in-scope cross-modal transfer)와 범위 외 국소성 (out-of-scope locality) 사이의 트레이드오프를 일관되게 개선함을 보여줍니다. 우리의 코드는 https://github.com/lab-klc/ScopeEdit 에서 확인할 수 있습니다.

Insights

온라인 재귀적 MLLM 편집을 위한 멀티모달 지식 편집 범위 제한 일반화

요약

핵심 포인트

댓글

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때