arXiv논문2026. 06. 19. 10:46

원격 탐사(Remote Sensing) MLLM의 부정문 이해 능력 평가 및 향상

요약

원격 탐사(Remote Sensing) 분야 MLLM의 부정문 이해 능력을 평가하기 위한 최초의 벤치마크인 RS-Neg를 소개합니다. 연구 결과 모델들이 부정문 처리 시 환각 현상을 보임을 확인하였으며, 이를 개선하기 위한 테스트 시간 학습 방법인 NeFo를 제안합니다.

핵심 포인트

원격 탐사 MLLM의 부정문 이해 능력을 평가하는 RS-Neg 벤치마크 도입
기존 MLLM이 부정문 질의에서 환각 및 성능 저하를 보임을 입증
소량의 레이블 없는 데이터로 성능을 높이는 NeFo 학습법 제안
NeFo를 통해 미학습 작업에 대한 일반화 성능 향상 확인

멀티모달 거대 언어 모델 (Multimodal Large Language Models (MLLMs))은 다양한 원격 탐사 (Remote Sensing (RS)) 작업에서 놀라운 성공을 보여주었습니다. 그러나 부정문 (negation)을 이해하는 능력은 여전히 충분히 탐구되지 않았으며, 이는 모델이 무엇이 거짓인지 또는 무엇이 부재하는지를 명시적으로 식별해야 하는 실제 응용 분야에서의 배포를 제한합니다. 예를 들어, 응급 구조 요원은 대피를 위해 침수되지 않은 (non-flooded) 경로를 찾아야 합니다. 이러한 한계를 포괄적으로 연구하기 위해, 우리는 영역 수준 (region-level)에서 장면 수준 (scene-level) 작업에 이르기까지 부정문 이해를 평가하는 최초의 벤치마크인 RS-Neg를 소개합니다. 구체적으로, 우리는 LLM을 사용하여 다양한 부정문 질의 (negation queries)를 합성하는 원격 탐사 영상용 자동 데이터 생성 파이프라인을 설계하고, 검증을 위한 동적 시각적 집중 모듈 (dynamic visual focus module)을 도입합니다. 우리의 평가 결과, 고급 RS MLLM들은 부정문 처리에 어려움을 겪으며 환각 (hallucinations) 현상과 상당한 성능 저하를 보인다는 점이 밝혀졌습니다. 이 격차를 줄이기 위해, 우리는 부정문의 논리적 역할을 모델 최적화에 명시적으로 통합하는 새로운 테스트 시간 학습 (test-time learning) 방법인 NeFo를 제안합니다. 놀랍게도, 약 5%의 레이블이 없는 테스트 샘플을 사용하여 NeFo는 모델의 부정문 이해 능력을 크게 향상시키며, 보지 못한 작업에 대해서도 강력한 일반화 성능을 보여줍니다. 코드와 데이터는 승인 시 공개될 예정입니다.

AI 자동 생성 콘텐츠

원문 바로가기

원격 탐사(Remote Sensing) MLLM의 부정문 이해 능력 평가 및 향상

요약

핵심 포인트

댓글