arXiv논문2026. 06. 11. 19:13

질문(Interrogation)의 기술: 일관성이 공간 추론의 사실성을 증폭시킨다

요약

본 연구는 대규모 추론 모델(LRMs)의 공간 추론 능력 부족 문제를 다룹니다. 기존 방식이 외부 데이터에 의존하는 것과 달리, 본 논문은 정답 주석 없이 내부 추론 과정의 '논리적 일관성'을 강화하는 자기 지도 RL 프레임워크를 제안합니다. 이를 통해 모델이 기하학적/의미적 일관성을 학습하여 공간 추론 능력을 향상시킬 수 있음을 입증했습니다.

핵심 포인트

공간 추론은 LRM의 일반 능력에 내재되어 있으나, 논리적 일관성 정렬이 필요함.
정답 주석(ground-truth) 없이 내부 추론 과정을 목표로 하는 자기 지도 RL 프레임워크를 제안.
기하학적/의미적 일관성을 확인하는 '일관성 검증기' 개념을 공식화하여 활용.
새로운 최적 수송 기반 RL 전략인 OT-GRPO가 높은 일반화 성능을 보임.

현재 대규모 추론 모델(LRMs)은 놀라운 일반 능력을 보여주지만, 공간 추론 작업에서는 현저히 낮은 성능을 보입니다. 기존 접근 방식들은 이러한 격차를 지식 부족으로 간주하고, 외부 비전 소스나 합성 엔진에서 레이블링된 공간 데이터를 흡수하기 위해 지도 미세 조정(SFT)에 의존합니다. 반면, 우리는 많은 작업의 경우 공간 추론 능력이 이미 사전 훈련된 LRM에 존재하지만, 기하학적 2D 및 3D 제약 조건 하에서의 논리적 일관성을 통해 정렬되어야 한다고 주장합니다. 본 연구에서는 정답 주석(ground-truth annotations)을 요구하지 않고 내부 추론 과정을 목표로 하는 자기 지도 강화 학습(RL) 프레임워크를 제안합니다. 변환 하에서 기하학적 및 의미적 일관성을 확인하는 보상 함수인 '일관성 검증기(consistency verifiers)'의 개념을 공식화함으로써, 모델이 공간 추론 능력을 향상시킬 수 있음을 입증합니다. 우리는 플립핑과 같은 이미지 변환과 질문에서 객체의 순서를 바꾸는 것과 같은 텍스트 변환을 모두 사용하고, 쌍별 검증기(pairwise verifiers)에 맞게 조정된 그룹 상대 정책 최적화(group relative policy optimization)의 최소 매칭 변형인 새로운 최적 수송 기반 RL 전략, OT-GRPO를 제안합니다. 우리는 이 레이블 프리(label-free) 일관성 훈련 방식이 정답 감독으로 훈련된 모델의 정확도에 근접하며, 다양한 작업 및 데이터 도메인 전반에 걸쳐 유사한 일반화 성능을 달성함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

질문(Interrogation)의 기술: 일관성이 공간 추론의 사실성을 증폭시킨다

요약

핵심 포인트

댓글