지속적 멀티모달 학습에서의 숨겨진 망각: 정확도는 유지되지만 그라운딩(Grounding)은 실패할 때
요약
멀티모달 거대 언어 모델(MLLM)의 지속 학습 과정에서 답변 정확도는 유지되나 시각적·텍스트적 증거 활용 능력이 저하되는 '숨겨진 망각' 현상을 분석합니다. 이를 해결하기 위해 리플레이 없이 증거 의존성을 보존하는 새로운 프레임워크인 RCL을 제안합니다.
핵심 포인트
- 정확도는 유지되지만 증거 활용 능력이 떨어지는 '숨겨진 망각' 식별
- 리플레이가 필요 없는 의존성 제약 지속 학습 프레임워크 RCL 제안
- 반사실적 채널 개입을 통해 교사와 학생 모델의 증거 의존성 추정
- 추론 비용 증가 없이 작업 학습과 증거 경로 보존을 동시에 최적화
- 기존 PEFT 및 메모리 보조 방식 대비 망각 현상을 실질적으로 감소
멀티모달 거대 언어 모델(Multimodal Large Language Models, MLLM)은 진화하는 작업과 도메인에 지속적으로 적응해야 하지만, 표준적인 지속 학습(Continual Learning) 지표들은 주로 이전의 답변이 여전히 정답인지 여부만을 측정하며, 멀티모달 그라운딩(Multimodal Grounding)의 안정성은 거의 조사되지 않은 채로 남겨두고 있습니다. 우리는 간과된 이러한 실패 모드를 연구하며, 지속적으로 적응하는 MLLM이 무엇을 답변하는지뿐만 아니라 시각적(Visual), 텍스트(Textual), OCR, 차트(Chart), 문서(Document) 증거를 어떻게 사용하는지까지 보존할 수 있는지 질문합니다. 우리는 답변 정확도는 유지되면서 모델이 조용히 다르거나 그라운딩이 덜 된 증거 채널로 이동하는 extit{숨겨진 증거 사용 망각(hidden evidence-use forgetting)} 현상을 식별하였으며, 리플레이가 없는(replay-free) 의존성 제약 지속 학습 프레임워크인 extsc{RCL}을 제안합니다. extsc{RCL}은 이전 체크포인트를 행동 참조(behavioral reference)로 동결하고, 반사실적 채널 개입(counterfactual channel interventions)을 통해 교사(Teacher)와 학생(Student)의 증거 의존성 프로필을 추정하며, 추론 시 비용을 추가하지 않고 작업 학습, 예측 보존, 그리고 의존성 보존을 공동으로 최적화합니다. CoIN, COAST, MCITlib 및 증거에 민감한 멀티모달 스트림 전반에 걸쳐, extsc{RCL}은 리플레이가 없는(replay-free), PEFT, 라우팅(Routing), 메모리 보조(Memory-assisted) 베이스라인들에 비해 최종 성능을 일관되게 향상시키고 망각을 줄이는 동시에, 모달리티 의존성 드리프트(modality reliance drift), 지배적 증거 반전(dominant evidence flips), 그리고 숨겨진 망각률을 실질적으로 낮춥니다. 이러한 결과는 견고한 지속적 멀티모달 학습을 위해서는 단순히 정답 자체뿐만 아니라 정답 뒤에 있는 증거 경로(evidence path)를 보존하는 것이 필요함을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기