GeoX: 셀프 플레이(Self-Play)와 검증 가능한 보상(Verifiable Rewards)을 통한 지리 공간 추론(Geospatial
요약
GeoX는 대규모 인간 주석 데이터 없이도 지리 공간 추론 능력을 학습할 수 있는 셀프 플레이(Self-play) 프레임워크입니다. 실행 가능한 프로그램을 통해 검증 가능한 보상을 생성하며, 강화학습을 통해 멀티모달 정책과 검증기를 동시에 최적화합니다. 이를 통해 기존 VLM의 성능을 크게 향상시키고 지리 공간 이해를 위한 새로운 벤치마크를 제시합니다.
핵심 포인트
- 인간의 주석 없이 실행 가능한 프로그램을 활용한 검증 가능한 보상(Verifiable rewards) 체계 구축
- 가추법, 연역법, 귀납법의 세 가지 추론 모드를 지원하는 단일 멀티모달 정책 채택
- 강화학습을 통해 정책(Policy)과 검증기(Verifier)를 공동 최적화하는 셀프 플레이 방식
- 기존 VLM 성능을 평균 5.5포인트 향상시키며 대규모 데이터셋 기반 모델과 대등한 성능 달성
- 지리 공간 이해 능력 측정을 위한 새로운 벤치마크 공개
지리 공간 추론(Geospatial reasoning)은 장면의 복잡한 공간 구조 위에서 이미지에 기반한 문제들을 해결하는 것을 요구합니다. 그러나 방대하고 조합적인 질문 공간을 주석(Annotation) 처리하는 비용 때문에 이러한 능력을 개발하는 데 어려움이 있습니다. 우리는 대규모의 인간 큐레이션 데이터에 의존하지 않고, 검증 가능한 보상(Verifiable rewards)을 생성하는 실행 가능한 프로그램(Executable programs)을 통해 공간 논리(Spatial logic)를 습득하는 셀프 플레이(Self-play) 프레임워크인 GeoX를 제안합니다. 위성 또는 항공 이미지가 주어지면, 우리의 프레임워크는 공간 프리미티브(Spatial primitives)와 이미지 이해 도구(Image understanding tool)를 바탕으로 세 가지 추론 모드인 가추법(Abduction), 연역법(Deduction), 귀납법(Induction) 하에서 공간 문제를 실행 가능한 프로그램으로 제안하고 이를 해결하는 단일 멀티모달 정책(Multimodal policy)을 채택합니다. 검증기(Verifier)는 각 프로그램을 실행하여 보상 신호(Reward signal)를 변환하며, 이는 강화학습(Reinforcement learning)을 통해 두 역할을 공동으로 최적화합니다. GeoX는 기본 VLM(Vision-Language Models)의 성능을 평균 최대 5.5포인트까지 일관되게 향상시키며, 수백만 개의 큐레이션된 데이터로 학습된 기존 베이스라인(Baselines)과 대등하거나 이를 능가합니다. 제안된 방법과 더불어, 우리는 셀프 플레이를 통해 축적된 지리 공간 이해를 위한 벤치마크(Benchmark)를 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기