MSUE: 다중 모드 축구 이해 전문가
요약
본 논문은 2026 SoccerNet VQA Challenge 해결책으로 MSUE라는 다중 전문가 질의응답 아키텍처를 제안합니다. 이 시스템은 LLM을 활용하여 질문을 텍스트, 이미지, 비디오 등 여러 전문 모델에 동적으로 분배하고 협력하게 합니다. 이를 통해 높은 정확도를 달성하며 벤치마크에서 우수한 성능을 입증했습니다.
핵심 포인트
- 다중 모드 축구 이해를 위한 MSUE 아키텍처 제안
- VLM 기반의 비용 효율적인 데이터 합성 파이프라인 구축
- LLM을 활용한 다중 전문가 질의응답 시스템 구현
본 논문은 2026 SoccerNet VQA Challenge에 대한 저희의 해결책을 제시합니다. 먼저, 비전-언어 모델(VLM)이 구동하는 비용 효율적인 데이터 합성 파이프라인을 개발하여, 간결한 답변과 장문 응답을 포함한 다양한 VQA 샘플로 원본 도메인 데이터를 체계적으로 재구성합니다. 둘째, 저희는 대규모 언어 모델(LLM)을 사용하여 질문을 텍스트, 이미지, 비디오 전문가에게 동적으로 분배하는 다중 전문가 질의응답 아키텍처인 MSUE를 제안합니다. 이 전문가들은 각각 강력한 텍스트 기준선 Gemini3-Flash, 미세 조정된 Qwen3-VL, 그리고 외부 지식 기반으로 구현되어 VQA 성능 향상을 위해 협력적으로 작동합니다. MSUE는 해당 챌린지 벤치마크에서 extbf{0.95}의 정확도를 달성하며 리더보드에서 3위를 차지했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기