지속적 멀티모달 학습에서의 숨겨진 망각: 정확도는 유지되지만 그라운딩(Grounding)은 실패할 때

멀티모달 거대 언어 모델(Multimodal Large Language Models, MLLM)은 진화하는 작업과 도메인에 지속적으로 적응해야 하지만, 표준적인 지속 학습(Continual Learning) 지표들은 주로 이전의 답변이 여전히 정답인지 여부만을 측정하며, 멀티모달 그라운딩(Multimodal Grounding)의 안정성은 거의 조사되지 않은 채로 남겨두고 있습니다. 우리는 간과된 이러한 실패 모드를 연구하며, 지속적으로 적응하는 MLLM이 무엇을 답변하는지뿐만 아니라 시각적(Visual), 텍스트(Textual), OCR, 차트(Chart), 문서(Document) 증거를 어떻게 사용하는지까지 보존할 수 있는지 질문합니다. 우리는 답변 정확도는 유지되면서 모델이 조용히 다르거나 그라운딩이 덜 된 증거 채널로 이동하는 extit{숨겨진 증거 사용 망각(hidden evidence-use forgetting)} 현상을 식별하였으며, 리플레이가 없는(replay-free) 의존성 제약 지속 학습 프레임워크인 extsc{RCL}을 제안합니다. extsc{RCL}은 이전 체크포인트를 행동 참조(behavioral reference)로 동결하고, 반사실적 채널 개입(counterfactual channel interventions)을 통해 교사(Teacher)와 학생(Student)의 증거 의존성 프로필을 추정하며, 추론 시 비용을 추가하지 않고 작업 학습, 예측 보존, 그리고 의존성 보존을 공동으로 최적화합니다. CoIN, COAST, MCITlib 및 증거에 민감한 멀티모달 스트림 전반에 걸쳐, extsc{RCL}은 리플레이가 없는(replay-free), PEFT, 라우팅(Routing), 메모리 보조(Memory-assisted) 베이스라인들에 비해 최종 성능을 일관되게 향상시키고 망각을 줄이는 동시에, 모달리티 의존성 드리프트(modality reliance drift), 지배적 증거 반전(dominant evidence flips), 그리고 숨겨진 망각률을 실질적으로 낮춥니다. 이러한 결과는 견고한 지속적 멀티모달 학습을 위해서는 단순히 정답 자체뿐만 아니라 정답 뒤에 있는 증거 경로(evidence path)를 보존하는 것이 필요함을 시사합니다.

Insights

지속적 멀티모달 학습에서의 숨겨진 망각: 정확도는 유지되지만 그라운딩(Grounding)은 실패할 때

요약

핵심 포인트

댓글

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때