arXiv논문2026. 05. 21. 10:52

SpectralEarth-FM: 다중 모달 지구 관측 사전 학습에 초분광 이미지를 도입하기

요약

SpectralEarth-FM은 초분광 이미지(HSI)와 다중 분광 이미지(MSI), SAR 등 이질적인 지구 관측 데이터를 통합하여 학습할 수 있는 계층적 트랜스포머 모델입니다. 연구진은 다양한 우주 기반 센서 데이터를 결합한 SpectralEarth-MM 데이터셋을 구축하였으며, JEPA 스타일의 목적 함수를 통해 다중 센서 간의 표현을 일치시켰습니다. 실험 결과, 초분광 및 표준 지구 관측 벤치마크 모두에서 최첨가(SOTA) 성능을 달성했습니다.

핵심 포인트

초분광 이미지(HSI)와 기존 지구 관측(EO) 센서 간의 공동 사전 학습 및 융합을 가능하게 하는 아키텍처 제안
분광 토큰화, 센서별 인코더, 교차 센서 융합 모듈을 포함한 계층적 트랜스포머 구조 도입
40TB 이상의 대규모 다중 모달 데이터셋인 SpectralEarth-MM 큐레이션
JEPA(Joint-Embedding Predictive Architecture) 스타일의 목적 함수를 활용한 표현 학습
초분광 및 표준 EO 벤치마크에서 최첨단(SOTA) 성능 입증

지구 관측 (EO) 파운데이션 모델 (FMs)은 다중 분광 이미지 (MSI), 합성 개구 레이더 (SAR), 그리고 파생된 지리 공간 레이어에 걸쳐 다중 센서 데이터로 점점 더 많이 학습되고 있지만, 초분광 이미지 (HSI)는 여전히 충분히 다뤄지지 않고 있습니다. 반대로, 기존의 초분광 FMs는 HSI 단독으로만 학습되어, HSI와 동일 위치에 있는 EO 센서 간의 공동 사전 학습 (joint pretraining) 및 융합 (fusion)은 탐구되지 않은 상태로 남아 있습니다. 우리는 이질적인 분광 차원을 가진 다중 센서 EO 입력을 위한 계층적 트랜스포머 (hierarchical transformer)인 SpectralEarth-FM을 소개합니다. 이 아키텍처는 초분광 입력을 위한 분광 토큰화 (spectral tokenization), 센서별 인코더 (sensor-specific encoders), 교차 센서 융합 모듈 (cross-sensor fusion module), 그리고 공유 계층적 인코더 (shared hierarchical encoder)를 결합하여 HSI와 채널 수가 적은 관측 데이터의 공동 처리를 가능하게 합니다. SpectralEarth-FM을 사전 학습하기 위해, 우리는 세 가지 우주 기반 센서 (EnMAP, EMIT, DESIS)의 HSI를 Sentinel-2, Landsat-8/9 광학 이미지, Landsat 지표면 온도 (LST), 그리고 Sentinel-1 SAR와 공통된 지리적 영역 내에서 동일 위치에 배치한 데이터셋인 SpectralEarth-MM을 큐레이션했습니다. 이는 전 세계에 분포된 약 200만 개의 위치, 2,500만 개의 지리 참조 패치 (georeferenced patches), 그리고 40TB 이상의 데이터로 구성됩니다. 사전 학습에는 동일한 위치의 글로벌 뷰 (global views)와 단일 센서 로컬 뷰 (single-sensor local views) 사이의 표현 (representations)을 일치시키는 공동 임베딩 예측 아키텍처 (Joint-Embedding Predictive Architecture, JEPA) 스타일의 목적 함수를 사용합니다. 우리는 PANGAEA 프로토콜을 따라 초분광 다운스트림 태스크와 표준 EO 벤치마크에서 SpectralEarth-FM을 평가하였으며, 두 평가 설정 모두에서 최첨단 (state-of-the-art) 결과를 달성했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

SpectralEarth-FM: 다중 모달 지구 관측 사전 학습에 초분광 이미지를 도입하기

요약

핵심 포인트

댓글