SARLO-80: 전 세계 경사 거리(Slant Range) SAR 언어 광학 데이터셋 80cm
요약
SARLO-80은 초고해상도 SAR 데이터, 정렬된 광학 이미지, 자연어 설명을 결합한 대규모 멀티모달 데이터셋입니다. 기존 저해상도 데이터셋의 한계를 넘어 복소수 값과 고유 기하 구조를 보존하여 물리적 근거를 둔 멀티모달 학습을 지원합니다.
핵심 포인트
- 80cm 경사 거리(Slant Range) 그리드로 표준화된 VHR SAR 데이터 제공
- 복소수 SAR 패치, 정렬된 광학 패치, 3가지 유형의 텍스트 캡션 포함
- 72개국 257개 위치, 약 12만 개의 멀티모달 트리플렛 구축
- 교차 모달 검색 및 조건부 생성 연구를 위한 벤치마크 제공
- Hugging Face를 통해 데이터셋 및 베이스라인 코드 공개
대규모 광학 벤치마크 덕분에 멀티모달 파운데이션 모델 (Multimodal foundation models)은 빠르게 발전해 왔으나, 합성 개구 레이더 (Synthetic Aperture Radar, SAR)를 위한 유사한 자원은 여전히 제한적입니다. 기존의 SAR-광학 데이터셋은 주로 저해상도의 강도 전용 (intensity-only) 지표면 거리 검출 (Ground Range Detected, GRD) 제품에 의존하며, 복소수 값 SAR 측정값 (complex-valued SAR measurements)이나 고유 획득 기하 구조 (native acquisition geometry)를 보존하지 않아 물리적 근거를 둔 멀티모달 학습을 제한합니다. 특히, 초고해상도 (Very-High-Resolution, VHR) SAR SLC, 정렬된 광학 이미지, 그리고 자연어 설명을 결합한 대규모 공개 데이터셋은 여전히 부족한 실정입니다. 본 연구에서는 센서 독립 복소 데이터 (Sensor Independent Complex Data, SICD)로 배포된 오픈 액세스 Umbra 스포트라이트 (spotlight) 획득 데이터를 기반으로 구축된 VHR SAR-광학-텍스트 데이터셋을 제시합니다. 전 세계 약 2,500개의 장면 (VV/HH, 20cm~2m 고유 해상도)으로부터, 우리는 대역 제한 FFT 리샘플링 (band-limited FFT resampling)을 통해 모든 SAR 데이터를 80cm 경사 거리 (slant-range) 그리드로 표준화하고, 이미지를 1024x1024 패치로 타일링합니다. 각 SAR 패치에 대해, 우리는 고해상도 광학 타일을 검색하고 국부적 픽셀 수준 정렬을 위해 국부 좌표 대응 관계 (local coordinate correspondences)를 사용하여 SAR 그리드로 워핑 (warp)합니다. 또한 시각-언어 (vision-language) 학습 및 평가를 지원하기 위해 샘플당 세 가지 캡션 변형 (SHORT/MID/LONG)을 생성합니다. 우리의 데이터셋은 72개국에 걸친 257개 위치와 광범위한 토지 유형 및 인프라를 아우르는 119,566개의 트리플렛 (복소수 및 진폭 경사 거리 SAR 패치, 정렬된 광학 패치, 자연어 설명)을 포함합니다. 우리는 고유 SAR 기하 구조에서의 교차 모달 검색 (cross-modal retrieval) 및 조건부 생성 (conditional generation)에 대한 멀티모달 정렬의 재현 가능한 벤치마크를 가능하게 하기 위해 고정된 학습/검증/테스트 분할과 전체 전처리 및 베이스라인 코드를 공개합니다. 데이터셋은 Hugging Face Hub(https://huggingface.co/datasets/ONERA/SARLO-80)에서 공개적으로 사용할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기