Earth-OneVision: 원격 탐사 멀티모달 거대 언어 모델을 더 많은 센서 모달리티와 작업으로 확장하기
요약
Earth-OneVision은 6가지 센서 모달리티와 9가지 작업을 통합한 2B 규모의 원격 탐사 멀티모달 거대 언어 모델입니다. 세 가지 전용 메커니즘을 통해 시각-언어 정렬 및 공간 출력 통합 문제를 해결하며, 기존 대규모 모델과 대등하거나 이를 능가하는 성능을 보여줍니다.
핵심 포인트
- 6가지 센서(광학, SAR, 적외선 등)와 9가지 작업을 단일 프레임워크로 통합
- FGVLA, SLIS, PCMA 메커니즘을 통한 시각-언어 및 공간 데이터 정렬
- 3,400만 개의 QA 쌍으로 구성된 MMRS-OneVision 데이터셋 구축
- 2B 파라미터로 4B-72B 규모의 기존 RS-MLLM과 대등한 성능 달성
RS-MLLM (Remote Sensing Multimodal Large Language Models)은 지구 관측 영상에 대한 자연어 이해 및 공간 추론을 가능하게 합니다. 그러나 기존 모델들은 좁은 범위의 센서 유형과 작업만을 지원하여, 지구에 대한 단편적인 시각만을 제공하며 교차 모달 (cross-modal) 지질과학 지식을 제대로 활용하지 못하고 있습니다. 본 연구에서는 6가지 센서 모달리티(즉, 광학 (optical), SAR, 적외선 (infrared), 다중 분광 (multispectral), 시계열 (temporal), 비디오 (video))와 9가지 작업 범주에 걸친 교차 센서 융합을 단일 자기회귀 (autoregressive) 프레임워크 내에서 통합하는 2B 규모의 RS-MLLM인 Earth-OneVision을 제시합니다. 세 가지 전용 메커니즘이 세 가지 병목 현상을 해결합니다. 전정밀도 시각-언어 정렬 (Full-Granularity Vision-Language Alignment, FGVLA)은 다층적 시각 특징을 다차원 언어 공간과 정렬합니다. 공간-언어 동형 직렬화 (Spatial-Linguistic Isomorphic Serialization, SLIS)는 이질적인 공간 출력을 자기회귀 토큰으로 통합합니다. 점진적 교차 모달 적응 (Progressive Cross-Modality Adaptation, PCMA)은 복합적인 도메인 격차를 순차적 단계로 분해하여, 관점 (viewpoint) 및 영상 물리 (imaging physics) 격차를 차례로 해결합니다. 공동 학습을 지원하기 위해, 6가지 센서 모달리티 전체와 9가지 작업 범주에 걸친 교차 센서 융합을 아우르는 약 3,400만 개의 QA 쌍으로 구성된 MMRS-OneVision을 구축하였으며, 이는 기존의 RS 멀티모달 지시어 데이터셋을 크게 상회합니다. 단 2B 개의 파라미터만으로 Earth-OneVision은 광범위한 벤치마크에서 경쟁력 있거나 최첨단 (state-of-the-art)의 결과를 달성하며, 4B-72B 규모의 RS-MLLM과 일관되게 대등하거나 이를 능가합니다. 광학 시각 그라운딩 (optical visual grounding)을 위한 OPT-RSVG 테스트셋에서 87.52%의 P@0.5를 달성하였고, SAR VQA 벤치마크인 SARLANG-Bench에서 80.68%를 기록하여 7B 모델을 7% 이상 앞질렀습니다. 또한 다중 분광 분류 (multispectral classification)를 위한 BigEarthNet-MS 테스트셋에서 75.74%의 재현율 (recall)을 달성하였으며, 교차 모달 추론 (cross-modality reasoning)을 위한 EarthMind-Bench에서 81.94%의 MCQ 정확도를 달성했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기