Plug-and-Adapt: 사전 학습된 정렬 모델을 통한 즉각적인 멀티모달 상호참조 해결 (Multimodal Coreference
요약
기존의 멀티모달 상호참조 해결(MCR) 방식이 가진 데이터셋 학습 의존성과 거대 모델(VLLM)의 높은 비용 문제를 해결하기 위한 'plug-and-adapt' 방법을 제안합니다. 사전 학습된 정렬 모델을 전략적으로 적응시켜 추가 학습 없이도 높은 성능을 내는 효율적인 접근법을 제시합니다.
핵심 포인트
- 데이터셋 주석 학습 없이 즉시 사용 가능한 MCR 방법론 제안
- 증거 이론을 활용한 시각적·범주적 단서 융합 및 유사도 집계
- CIN 벤치마크에서 기존 SOTA 및 VLLM 대비 성능 향상 입증
- 강건성 및 일반화 능력(VCR-MCR 데이터셋) 검증 완료
시각적 정보는 상호참조 해결 (Coreference Resolution) 과정에서의 모호성을 해소하는 데 도움을 주며, 이는 주목할 만한 성능 향상으로 이어집니다. 그러나 기존의 멀티모달 상호참조 해결 (Multi-modal Coreference Resolution, MCR) 방법들은 적용하기 전에 대상 데이터셋의 (부분적으로) 주석이 달린 데이터로 학습을 거쳐야 하며, 이는 직접적인 사용성을 저해하고 일반화(Generalization)에 대한 우려를 불러일으킵니다. 수십억 개의 파라미터를 가진 시각-언어 거대 모델 (Vision-Language Large Models, VLLMs)은 유망한 제로샷 (Zero-shot) 능력을 제공하지만, 여전히 접근하기 어려운 상태입니다. 이들의 거대한 크기는 배포 가능성을 제한하며, 많은 모델이 유료 API를 통해서만 접근 가능합니다. 본 논문에서는 희소한 벤치마크 데이터셋에 대한 학습 필요성을 없애거나 자원 집약적인 VLLMs에 의존하지 않도록 설계된, MCR 작업에 즉시 사용할 수 있도록 정교하게 사전 학습된 정렬 모델 (Alignment Model)을 전략적으로 적응시키는 'plug-and-adapt' 방법을 제안합니다. 구체적으로, 우리는 먼저 시각-언어 정렬 (Vision-language alignment) 데이터셋을 사용하여 텍스트 및 시각적 문맥 정보 간의 세밀한 정렬 모델을 사전 학습합니다. 그런 다음, 증거 이론 (Evidence theory)을 사용하여 시각적 및 범주적 단서를 융합함으로써 유사도 집계 (Similarity aggregation)를 통해 정렬 모델을 MCR로 재용도화하며, 이를 통해 효과성을 높입니다. Coreference Image Narratives (CIN) 벤치마크 데이터셋에 대한 실험은 우리 방법의 효과를 입증하며, 기존의 SOTA 전용 방법 및 대중적인 VLLMs 대비 CoNLL F1 점수에서 각각 5.31%와 2.12%의 향상을 달성했습니다. 우리는 또한 강건성 테스트를 위해 마스킹된 (Masked) CIN 데이터셋에서, 그리고 일반화 능력 평가를 위해 특별히 구축된 VCR-MCR 데이터셋에서 우리 방법을 추가로 평가하였으며, 결과는 두 가지 능력 모두를 확인시켜 주었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기