JL1-CC&QA: 변화 캡셔닝(Change Captioning) 및 질의응답(Question Answering)을 통한 JL1-CD 벤치마크
요약
원격 탐사 분야의 변화 탐지를 위해 변화 캡셔닝(CC)과 질의응답(QA) 기능을 통합한 JL1-CC&QA 벤치마크를 소개합니다. Jilin-1 위성 이미지를 기반으로 구축되었으며, 단순 위치 식별을 넘어 변화의 이유와 내용을 설명하는 멀티태스크 연구를 지원합니다.
핵심 포인트
- 기존 이진 세그멘테이션의 한계를 넘어 의미론적 변화 이해 제공
- 17,021개의 변화 캡션과 20,060개의 질의응답 쌍 포함
- LLM 생성, 시각 기반 LLM 판정, 전문가 검증의 3단계 파이프라인 적용
- 멀티모달 거대 언어 모델(MLLM)을 활용한 원격 탐사 연구 가속화
원격 탐사 변화 탐지 (Change Detection, CD)는 전통적으로 변화가 발생하는 위치는 식별하지만, 무엇이 또는 왜 변했는지는 식별하지 못하는 픽셀 수준의 이진 세그멘테이션 (Binary Segmentation)에 집중해 왔습니다. 이러한 의미론적 격차를 해소하기 위해, 우리는 두 가지 상호 보완적인 주석 레이어인 변화 캡셔닝 (Change Captioning, CC) 및 변화 질의응답 (Change Question Answering, QA)을 통해 JL1-CD 데이터셋을 확장한 멀티태스크 벤치마크인 JL1-CC&QA를 소개합니다. 0.5-0.75m 지상 표본 거리 (Ground Sample Distance, GSD)로 Jilin-1 위성이 촬영한 5,000개의 이시적 (Bi-temporal) 이미지 쌍을 기반으로 구축된 이 벤치마크는 다음으로 구성됩니다: (i) 다양한 지표 피복 변화를 설명하는 17,021개의 품질 검증된 캡션을 제공하는 JL1-CC; (ii) 8가지 질문 유형에 걸쳐 20,060개의 질의응답 쌍을 제공하여 지표 변화에 대한 세밀하고 상호작용적인 조사를 가능하게 하는 JL1-QA. 모든 주석은 멀티모달 거대 언어 모델 (Multi-modal Large Language Model, LLM) 생성, 시각 기반 (Vision-grounded) LLM 판정, 그리고 인간 전문가 검증으로 구성된 3단계 파이프라인을 통해 생성되었습니다. 우리는 동일한 이미지 세트에 대해 이진 변화 마스크 (Binary Change Masks), 변화 캡션, 그리고 변화 중심의 QA를 통합하는 벤치마크인 JL1-CC&QA가 원격 탐사 분야에서 멀티태스크 변화 이해를 발전시키기 위한 커뮤니티의 가치 있는 자원이 되기를 바랍니다. 데이터셋은 https://github.com/circleLZY/JL1-CD 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기