JL1-CC&QA: 변화 캡셔닝(Change Captioning) 및 질의응답(Question Answering)을 통한 JL1-CD 벤치마크

원격 탐사 변화 탐지 (Change Detection, CD)는 전통적으로 변화가 발생하는 위치는 식별하지만, 무엇이 또는 왜 변했는지는 식별하지 못하는 픽셀 수준의 이진 세그멘테이션 (Binary Segmentation)에 집중해 왔습니다. 이러한 의미론적 격차를 해소하기 위해, 우리는 두 가지 상호 보완적인 주석 레이어인 변화 캡셔닝 (Change Captioning, CC) 및 변화 질의응답 (Change Question Answering, QA)을 통해 JL1-CD 데이터셋을 확장한 멀티태스크 벤치마크인 JL1-CC&QA를 소개합니다. 0.5-0.75m 지상 표본 거리 (Ground Sample Distance, GSD)로 Jilin-1 위성이 촬영한 5,000개의 이시적 (Bi-temporal) 이미지 쌍을 기반으로 구축된 이 벤치마크는 다음으로 구성됩니다: (i) 다양한 지표 피복 변화를 설명하는 17,021개의 품질 검증된 캡션을 제공하는 JL1-CC; (ii) 8가지 질문 유형에 걸쳐 20,060개의 질의응답 쌍을 제공하여 지표 변화에 대한 세밀하고 상호작용적인 조사를 가능하게 하는 JL1-QA. 모든 주석은 멀티모달 거대 언어 모델 (Multi-modal Large Language Model, LLM) 생성, 시각 기반 (Vision-grounded) LLM 판정, 그리고 인간 전문가 검증으로 구성된 3단계 파이프라인을 통해 생성되었습니다. 우리는 동일한 이미지 세트에 대해 이진 변화 마스크 (Binary Change Masks), 변화 캡션, 그리고 변화 중심의 QA를 통합하는 벤치마크인 JL1-CC&QA가 원격 탐사 분야에서 멀티태스크 변화 이해를 발전시키기 위한 커뮤니티의 가치 있는 자원이 되기를 바랍니다. 데이터셋은 https://github.com/circleLZY/JL1-CD 에서 확인할 수 있습니다.

Insights

JL1-CC&QA: 변화 캡셔닝(Change Captioning) 및 질의응답(Question Answering)을 통한 JL1-CD 벤치마크

요약

핵심 포인트

댓글

무료로 공개된 AI 명저를 매번 찾아 열어보는 것은 힘들다.

대법원, 리사 쿡의 직장 보호를 통해 연준 독립성 지지—미국 부채도 위기에서 구제

Bernstein, Kalshi와 Polymarket이 인수 대상이 될 수 있다고 분석

BeyondArena: 표 형식 파운데이션 모델 (Tabular Foundation Models)은 실제로 범용적인가?

대법원, 리사 쿡의 직장 보호를 통해 연준 독립성 지지—미국 부채도 위기에서 구제

Bernstein, Kalshi와 Polymarket이 인수 대상이 될 수 있다고 분석

BeyondArena: 표 형식 파운데이션 모델 (Tabular Foundation Models)은 실제로 범용적인가?