본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 30. 10:41

AMR: 다중 모달리티 폴리글랏 화자 식별을 위한 적응형 모달리티 라우팅 (Adaptive Modality Routing)

요약

POLY-SIM 2026 챌린지를 위해 제안된 AMR 시스템은 누락된 모달리티와 언어 불일치 문제를 해결하는 적응형 모달리티 라우팅 기술을 다룹니다. 샘플별 입력 품질을 동적으로 평가하여 오디오와 얼굴 임베딩의 가중치를 최적화함으로써 높은 화자 식별 정확도를 달성했습니다.

핵심 포인트

  • 적응형 모달리티 라우팅(AMR)을 통한 동적 모달리티 가중치 추정
  • W2V-BERT 2.0 및 IResNet-18 기반의 모달리티 어댑터 활용
  • KL 발산을 이용한 모달리티 인식 학습 전략 채택
  • POLY-SIM 2026 테스트에서 평균 99.07%의 높은 정확도 기록

다중 모달리티 (Multimodal) 화자 식별 시스템은 실제 배포 환경에서 두 가지 주요 과제에 직면합니다: 누락된 모달리티 (missing modalities)와 훈련 및 테스트 조건 사이의 언어 불일치 (language mismatch)입니다. 실제 시나리오에서는 배경의 다중 화자 대화, 주변 소음, 그리고 중첩된 음성이 식별 정확도를 더욱 저하시킵니다. 이러한 과제를 해결하기 위해, 우리는 POLY-SIM 2026 Grand Challenge를 위한 다중 모달리티 폴리글랏 (multimodal polyglot) 화자 식별 시스템을 제안합니다. 이 시스템은 근본적으로 샘플별 입력 품질을 동적으로 평가하고 모달리티 정보를 통합하는 모달리티 융합 모듈인 적응형 모달리티 라우팅 (Adaptive Modality Routing, AMR)을 기반으로 구축되었습니다. 구체적으로, AMR은 언어적으로 강력한 오디오 인코더 (W2V-BERT 2.0)와 대규모 사전 학습된 얼굴 인코더 (IResNet-18)에서 추출된 임베딩 (embeddings)을 처리하여 모달리티에 적응된 임베딩을 생성하는 두 개의 모달리티 어댑터 (modality adapters)를 채택합니다. 이러한 적응된 임베딩을 바탕으로, 학습 가능한 라우터 (trainable router)가 동적 모달리티 가중치를 추정하며, 이는 이후 최종 예측을 위해 모달리티별 로짓 (logits)을 집계하는 데 적용됩니다. 이 라우팅 메커니즘을 최적화하기 위해, 우리는 다양한 입력 조건을 시뮬레이션하기 위해 네 가지 유형의 샘플 쌍을 구성하는 모달리티 인식 학습 (modality-aware training) 전략을 채택하였으며, KL 발산 (KL divergence)이 가중치 할당을 위한 명시적인 감독 (supervision) 역할을 합니다. POLY-SIM 2026 평가 세트에서의 실험 결과, 제안된 시스템은 영어 다중 모달리티 (English multimodal, P3) 99.93%, 우르두어 다중 모달리티 (Urdu multimodal, P5) 100.00%, 영어 오디오 전용 (English audio-only, P4) 97.50%, 우르두어 오디오 전용 (Urdu audio-only, P6) 98.83%의 식별 정확도를 달성했습니다. 네 가지 프로토콜 전체의 평균 정확도는 99.07%로, Fusion and Orthogonal Projection (FOP) 베이스라인을 32.73% 상회했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0