arXiv논문2026. 06. 18. 11:08

SAMA: 통합된 저자원 멀티모달 정보 추출을 위한 의미론적 앵커 정렬 증강 (Semantic Anchor-aligned

요약

SAMA는 데이터 부족 문제를 해결하기 위해 의미론적 앵커를 활용한 통합 멀티모달 정보 추출(MIE) 증강 프레임워크입니다. CME-MLLM과 앵커 보존 확산 메커니즘을 통해 고충실도의 합성 데이터를 생성하며, 기존 방식보다 뛰어난 성능을 입증했습니다.

핵심 포인트

의미론적 앵커를 활용한 고충실도 멀티모달 합성 데이터 생성
CME-MLLM 기반의 범용 및 작업별 어댑터 통합 구조
앵커 보존 확산 메커니즘을 통한 시각적 문맥 다양화
이중 제약 필터링을 통한 합성 샘플의 일관성 및 충실도 확보
저자원 환경에서 MNER, MRE, MEE 작업의 성능 극대화

멀티모달 개체명 인식 (MNER), 관계 추출 (MRE), 이벤트 추출 (MEE)과 같은 작업을 포함하는 멀티모달 정보 추출 (MIE)은 멀티미디어 콘텐츠를 이해하는 데 필수적이지만, 심각한 데이터 부족 문제로 인해 제약을 받고 있습니다. 데이터 증강 (Data Augmentation)이 유망한 해결책이 될 수 있음에도 불구하고, 기존 방식들은 거친 교차 모달 정렬 (Cross-modal alignment)과 공유된 의미론적 지식을 활용하지 못하는 파편화된 작업별 설계로 인해 어려움을 겪고 있습니다. 이러한 한계를 극복하기 위해, 우리는 고충실도(High-fidelity) 및 작업 인지형(Task-aware) 합성 데이터를 생성하기 위한 통합 프레임워크인 SAMA (Semantic Anchor-aligned Multimodal Augmentation)를 소개합니다. SAMA는 정답(Ground-truth) 레이블로부터 구조화된 의미론적 앵커 (Semantic anchors)를 구축하여 협업형 다중 전문가 멀티모달 거대 언어 모델 (Collaborative Multi-Experts Multimodal Large Language Model, CME-MLLM)을 가이드합니다. 이 모델은 공유된 의미론을 위한 범용 어댑터 (Universal Adapter)와 다양하면서도 제약 조건을 준수하는 텍스트 샘플을 생성하기 위한 작업별 어댑터 (Task-Specific Adapters)를 통합합니다. 이미지 합성을 위해 SAMA는 앵커 가중치 프롬프트 (Anchor-weighted prompts)와 잠재 조건화 (Latent conditioning)를 사용하여 시각적 문맥을 다양화하는 동시에 핵심적인 의미론적 앵커를 유지하는 앵커 보존 확산 (Anchor-Preserving Diffusion) 메커니즘을 채택합니다. 수동 검증의 필요성을 제거하기 위해, SAMA는 교차 모달 일관성 (Cross-modal consistency)과 앵커 충실도 (Anchor fidelity)를 모두 기반으로 합성 샘플을 선택하는 이중 제약 필터링 (Dual-Constraint Filtering) 모듈을 추가로 도입합니다. MNER, MRE 및 MEE를 위한 벤치마크 데이터셋 전반에 걸친 광범위한 실험을 통해, SAMA가 완전 지도 학습 (Fully supervised) 및 저자원 (Low-resource) 설정 모두에서 최첨단 증강 베이스라인들을 일관되게 능가함을 입증하였으며, 이는 SAMA의 다재다능함, 견고성 및 효과성을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

SAMA: 통합된 저자원 멀티모달 정보 추출을 위한 의미론적 앵커 정렬 증강 (Semantic Anchor-aligned

요약

핵심 포인트

댓글