arXiv논문2026. 05. 08. 12:46

Verifier-Backed Hard Problem Generation for Mathematical Reasoning

요약

본 논문은 대형 언어 모델(LLMs)이 과학 및 수학 문제를 생성하는 과정의 한계를 극복하기 위해 '검증기 기반 어려운 문제 생성 프레임워크(VHG)'를 제안합니다. VHG는 기존의 설정자-해결자 구조에 독립적인 검증기를 통합하여, 문제가 유효성(검증기에 의해 평가)과 난이도(해결자에 의해 평가)라는 두 가지 기준을 모두 충족하도록 보상을 제한합니다. 이 프레임워크는 무한정 적분 및 일반 수학 추론 작업에서 기존 방법들보다 월등히 우수한 성능을 입증했습니다.

핵심 포인트

LLMs의 문제 생성 능력은 중요하지만, 유효하고 도전적인 문제를 자체적으로 만드는 데 어려움이 있다.
기존 접근 방식들은 인간 전문가 의존도가 높거나, 검증되지 않은 문제를 생성하는 한계가 있었다.
VHG(Verifier-Backed Hard Problem Generation)는 독립적인 검증기를 도입하여 문제의 유효성과 난이도를 동시에 보장한다.
검증기는 하드 심볼릭 변형과 소프트 LLM 기반 변형 등 다양한 형태로 구현되어 적용 가능하다.

대형 언어 모델 (LLMs) 은 과학 및 수학 문제를 해결하는 데 강력한 능력을 보여주지만, 유효하고 도전적이면서도 새로운 문제를 생성하는 데 어려움을 겪습니다 - 이는 LLM 훈련을 발전시키고 자율적인 과학 연구를 가능하게 하는 필수 요소입니다. 기존 문제 생성 접근법은 고비용의 인간 전문가 관여에 의존하거나, 보상 해킹으로 인해 종종 무효한 문제를 생성하는 단순한 자기 플레이 패러다임을 채택합니다. 이 작업은 세 가지 당사자 자기 플레이를 기반으로 한 검증기 강화된 어려운 문제 생성 프레임워크인 VHG 를 소개합니다. 독립적인 검증기를 기존의 설정자 - 해결자 이중 구조에 통합함으로써, 우리의 설계는 설정자의 보상을 문제의 유효성 (검증기에 의해 평가됨) 과 난이도 (해결자에 의해 평가됨) 가 공동으로 결정되도록 제한합니다. 우리는 두 가지 검증기 변형을 구현했습니다: Hard symbolic verifier 와 Soft LLM-based verifier, 그리고 무한정 적분 작업과 일반적인 수학 추론 작업에서 평가를 수행했습니다. 실험 결과는 VHG 가 모든 베이스라인 방법을 명확한 여지로 크게 상회함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Verifier-Backed Hard Problem Generation for Mathematical Reasoning

요약

핵심 포인트

댓글