arXiv논문2026. 06. 16. 22:44

FusionRS: 이중 모달리티 시각-언어 파운데이션 모델을 위한 대규모 RGB-적외선 원격 탐사 데이터셋

요약

원격 탐사 분야의 RGB-적외선(IR) 이중 모달리티 학습을 위한 대규모 데이터셋 FusionRS를 제안합니다. RGB와 적외선 이미지 쌍 및 IR 인식 캡션을 활용하여 시각-언어 파운데이션 모델의 정렬 및 캡셔닝 성능을 크게 향상시켰습니다.

핵심 포인트

최초의 대규모 RGB-적외선-텍스트 정렬 데이터셋 FusionRS 공개
적외선 특유의 시각적 속성을 설명하는 IR 인식 캡션 도입
RGB-IR 공동 이해를 위한 CLIP 스타일 및 생성형 VLM 학습
모달리티 특화 텍스트 감독이 정렬 성능 강화에 핵심적임을 입증

원격 탐사 시각-언어 모델(Remote sensing vision-language models)은 지구 관측 이해를 발전시켜 왔으나, 기존 연구의 대부분은 RGB 이미지에 집중되어 있어 적외선(Infrared) 데이터에 포함된 상호 보완적인 정보는 충분히 탐구되지 않은 상태로 남아 있습니다. 적외선 이미지는 열 강도 구조(thermal intensity structures), 객체 경계(object boundaries), 조명 불변 장면 특징(illumination-invariant scene features)을 포함한 독특한 단서들을 제공하며, 이는 기존의 RGB 관측을 넘어 시각-언어 학습을 풍부하게 할 수 있습니다. 그러나 원격 탐사 시각-언어 모델링을 위한 대규모 RGB-적외선-텍스트 데이터셋은 여전히 부재한 상황입니다. 이러한 공백을 메우기 위해, 우리는 원격 탐사 분야의 이중 모달리티(dual-modal) 시각-언어 학습을 위해 설계된 최초의 대규모 RGB-적외선-텍스트 데이터셋인 FusionRS를 소개합니다. FusionRS는 다양한 공개 RGB 원격 탐사 이미지를 적외선 스타일의 대응물로 변환하여 정렬된 RGB-IR 이미지 쌍을 형성함으로써 구축되었습니다. 각 쌍은 전통적인 장면 캡션(scene captions)과 함께, 의미론적 내용을 유지하면서도 적외선 특유의 시각적 속성을 명시적으로 설명하는 IR 인식 캡션(IR-aware captions)이 결합되어 있습니다. FusionRS를 기반으로, 우리는 RGB-IR 공동 이해를 위한 이중 모달리티 시각-언어 파운데이션 모델(dual-modal vision-language foundation models)을 학습시킵니다. 먼저 RGB-IR-텍스트 정렬을 위해 CLIP 스타일의 모델을 학습시킨 후, 이중 모달리티 RGB-IR 캡셔닝(captioning)을 위해 생성형 VLM(generative VLMs)을 미세 조정(fine-tune)합니다. 실험 결과, FusionRS는 RGB 전용 및 비-IR 인식 학습 설정에 비해 RGB-IR 정렬, 적외선-텍스트 검색(infrared-to-text retrieval), 그리고 이중 모달리티 캡셔닝 성능을 향상시킴을 보여주었습니다. 절제 연구(Ablation studies)를 통해 IR 인식 캡션이 적외선-언어 정렬을 강화하는 데 결정적임을 추가로 확인하였으며, 이는 더욱 확장 가능한 RGB-적외선 원격 탐사 시각-언어 표현 학습(representation learning)을 위해 모달리티 특화된 텍스트 감독(modality-specific textual supervision)이 중요하다는 점을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

FusionRS: 이중 모달리티 시각-언어 파운데이션 모델을 위한 대규모 RGB-적외선 원격 탐사 데이터셋

요약

핵심 포인트

댓글