MPerS: 동적 MLLM MixExperts 인식 기반 원격 탐사 장면 분할
요약
본 논문은 원격 탐사(RS) 장면의 복잡한 멀티모달 융합 문제를 해결하기 위해 MPerS(Dynamic MLLM MixExperts Perception-Guided Remote Sensing Scene Segmentation)를 제안합니다. 기존 연구들이 아키텍처 최적화에 집중했던 것과 달리, 본 방법은 고품질 RS 캡션 생성 및 이를 활용한 의미론적 분할에 초점을 맞춥니다. 특히, DINOv3로 추출된 시각적 특징과 언어학적 질의 안내 어텐션을 통해 MLLM(LLaVA, ChatGPT, Qwen 등)이 다양한 전문가 관점에서 장면을 인식하고 정밀하게 분할하도록 유도합니다.
핵심 포인트
- 원격 탐사(RS) 분야에서 멀티모달 융합의 핵심은 고품질 RS 캡션 생성 및 의미론적 통합에 있음을 강조했습니다.
- MPerS는 Dynamic MLLM Mixture-of-Experts 구조를 사용하여 여러 전문가 관점에서 원격 장면을 인식하고 분할합니다.
- DINOv3 임베딩과 언어학적 질의 안내 어텐션을 결합하여 텍스트 의미 정보를 시각적 특징에 정밀하게 통합하는 것이 핵심입니다.
- LLaVA, ChatGPT, Qwen 등 다양한 MLLM을 활용하여 방법론의 범용성과 성능을 입증했습니다.
이미지와 장면 캡션의 멀티모달 융합은 다양한 분야에서 광범위하게 탐구되고 적용되어 왔습니다. 하지만 복잡한 원격 탐사(RS) 장면을 다룰 때, 기존 연구들은 주로 텍스트 의미 정보를 시각적 특징과 통합하기 위한 아키텍처 최적화에 집중해왔으며, 고품질 RS 캡션 생성 및 이것이 멀티모달 의미 융합에서 얼마나 효과적인지에 대한 탐구는 크게 소홀히 했습니다. 이러한 맥락에서, 우리는 Dynamic MLLM Mixture-of-Experts Perception-Guided Remote Sensing Scene Segmentation, 즉 MPerS를 제안합니다. 우리는 MLLMs가 다양한 전문가 관점에서 RS 장면을 인식할 수 있도록 고품질 RS 캡션을 생성하기 위해 여러 프롬프트를 설계했습니다. DINOv3을 사용하여 토지 피복(land-covers)의 밀집된 시각적 표현을 추출합니다. 우리는 가장 효과적인 텍스트 의미를 적응적으로 통합하는 Dynamic MixExperts 모듈을 설계했습니다. 언어학적 질의 안내 어텐션(Linguistic Query Guided Attention)을 구성하여 텍스트 의미 정보를 활용해 시각적 특징을 정밀 분할하도록 유도합니다. MLLMs에는 LLaVA, ChatGPT, 그리고 Qwen이 포함됩니다. 우리의 방법은 세 가지 공개 의미론적 분할 RS 데이터셋에서 우수한 성능을 달성했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기