arXiv논문2026. 05. 20. 12:03

GeoX: 셀프 플레이(Self-Play)와 검증 가능한 보상(Verifiable Rewards)을 통한 지리 공간 추론(Geospatial

요약

GeoX는 대규모 인간 주석 데이터 없이도 지리 공간 추론 능력을 학습할 수 있는 셀프 플레이(Self-play) 프레임워크입니다. 실행 가능한 프로그램을 통해 검증 가능한 보상을 생성하며, 강화학습을 통해 멀티모달 정책과 검증기를 동시에 최적화합니다. 이를 통해 기존 VLM의 성능을 크게 향상시키고 지리 공간 이해를 위한 새로운 벤치마크를 제시합니다.

핵심 포인트

인간의 주석 없이 실행 가능한 프로그램을 활용한 검증 가능한 보상(Verifiable rewards) 체계 구축
가추법, 연역법, 귀납법의 세 가지 추론 모드를 지원하는 단일 멀티모달 정책 채택
강화학습을 통해 정책(Policy)과 검증기(Verifier)를 공동 최적화하는 셀프 플레이 방식
기존 VLM 성능을 평균 5.5포인트 향상시키며 대규모 데이터셋 기반 모델과 대등한 성능 달성
지리 공간 이해 능력 측정을 위한 새로운 벤치마크 공개

지리 공간 추론(Geospatial reasoning)은 장면의 복잡한 공간 구조 위에서 이미지에 기반한 문제들을 해결하는 것을 요구합니다. 그러나 방대하고 조합적인 질문 공간을 주석(Annotation) 처리하는 비용 때문에 이러한 능력을 개발하는 데 어려움이 있습니다. 우리는 대규모의 인간 큐레이션 데이터에 의존하지 않고, 검증 가능한 보상(Verifiable rewards)을 생성하는 실행 가능한 프로그램(Executable programs)을 통해 공간 논리(Spatial logic)를 습득하는 셀프 플레이(Self-play) 프레임워크인 GeoX를 제안합니다. 위성 또는 항공 이미지가 주어지면, 우리의 프레임워크는 공간 프리미티브(Spatial primitives)와 이미지 이해 도구(Image understanding tool)를 바탕으로 세 가지 추론 모드인 가추법(Abduction), 연역법(Deduction), 귀납법(Induction) 하에서 공간 문제를 실행 가능한 프로그램으로 제안하고 이를 해결하는 단일 멀티모달 정책(Multimodal policy)을 채택합니다. 검증기(Verifier)는 각 프로그램을 실행하여 보상 신호(Reward signal)를 변환하며, 이는 강화학습(Reinforcement learning)을 통해 두 역할을 공동으로 최적화합니다. GeoX는 기본 VLM(Vision-Language Models)의 성능을 평균 최대 5.5포인트까지 일관되게 향상시키며, 수백만 개의 큐레이션된 데이터로 학습된 기존 베이스라인(Baselines)과 대등하거나 이를 능가합니다. 제안된 방법과 더불어, 우리는 셀프 플레이를 통해 축적된 지리 공간 이해를 위한 벤치마크(Benchmark)를 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

GeoX: 셀프 플레이(Self-Play)와 검증 가능한 보상(Verifiable Rewards)을 통한 지리 공간 추론(Geospatial

요약

핵심 포인트

댓글