VeriEvol: 검증 가능한 Evol-Instruct를 통한 멀티모달 수학적 추론의 확장
요약
VeriEvol은 멀티모달 수학적 추론을 위한 검증 가능한 데이터 구축 프레임워크입니다. 프롬프트 난이도를 높이는 진화 모듈과 정답 신뢰도를 검증하는 HTV-Agent를 통해 고품질의 데이터를 대량으로 생성합니다.
핵심 포인트
- 프롬프트 난이도와 정답 신뢰도를 분리하여 데이터 확장성 확보
- HTV-Agent를 통한 다중 소스 반증 기반의 정답 검증
- 데이터 확장 시 벤치마크 평균 정확도 대폭 향상 (35.42% → 54.73%)
- 프롬프트 진화와 검증기 도입을 통해 RL 성능 추가 개선
- 프롬프트, 데이터, 모델 및 검증 추적 데이터 전체 공개
시각적 수학적 추론 (visual mathematical reasoning)을 위한 강화학습 (RL)을 확장하려면 단순히 더 어려운 질문을 생성하는 것 이상의 것이 필요합니다. 데이터의 양이 증가함에 따라 보상 라벨 (reward labels) 자체도 신뢰성을 유지해야 하기 때문입니다. 그러나 기존의 데이터 파이프라인은 라벨러 (labeller)를 신뢰하며 감독 (supervision)을 확장하는 방식이며, 정책 (policy) 측면의 방법론들은 근본적인 정답이 이미 정확하다고 가정합니다. 우리는 대신 확장을 검증 가능한 데이터 구축 문제로 취급하며, 정책 업데이트 이전에 두 가지 축을 분리합니다: 경로별 진화 연산자 (route-specific evolution operators)에 의해 확장되는 프롬프트 난이도 (prompt difficulty), 그리고 오프라인 가설 검정 반증 (offline hypothesis-test falsification)에 의해 강제되는 정답 신뢰도 (answer reliability)입니다. 우리는 이를 VeriEvol로 구현하였으며, 이는 두 가지 확장 가능한 구성 요소를 가진 반복적 프레임워크입니다: 저난이도 이미지-질문 시드 (image-question seeds)를 더 어렵고 이미지에 기반한 프롬프트로 재작성하는 유형 인식 진화 모듈 (type-aware evolution module), 그리고 다중 소스 반증 (multi-source counter-evidence)이 정답을 반박하는 데 실패한 후에만 답변을 수락하는 검증기인 HTV-Agent입니다. 결과적으로 생성된 검증된 데이터는 양적으로 확장되며, 진화 경로 또는 검증 채널을 추가함으로써 확장할 수 있고, 기존의 GRPO 스타일 RL 레시피에 직접 연결할 수 있습니다. 5개의 벤치마크 시각-수학 스위트 (visual-math suite)에서 진화된 SFT 데이터를 10K에서 250K 샘플로 확장했을 때 평균 정확도가 35.42에서 54.73으로 상승했습니다. 또한 백본 (backbone), SFT 초기화, GRPO 레시피를 고정했을 때, VeriEvol은 진화되지 않은 RL 베이스라인 대비 누적 +3.88을 추가하였으며, 이 중 +1.82는 진화된 프롬프트에서, +2.06은 HTV-Agent 검증기에서 기인했습니다. 우리는 프롬프트, 데이터, 모델, 코드, 그리고 모든 샘플의 전체 검증 추적 (verifier trace)을 공개하여, 후속 연구들이 단순히 출력물을 검사하는 것을 넘어 파이프라인을 확장하고 감사 (audit)할 수 있도록 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기