arXiv논문2026. 06. 03. 11:31

PyraMathBench: 대규모 언어 모델(LLMs)의 수학적 능력 평가 및 개선

요약

LLM의 수치 처리와 수학적 추론 능력을 통합적으로 평가하기 위한 계층적 벤치마크인 PyraMathBench를 제안합니다. 실험을 통해 모델의 취약점을 분석하고, 이를 개선하기 위한 SOLVE 모듈과 IRPO 학습 방식을 통해 Qwen-2.5의 성능 향상을 입증했습니다.

핵심 포인트

수치 처리와 수학적 추론을 통합한 PyraMathBench 벤치마크 공개
LLM의 부적절한 수치 계산 및 추상적 질문 처리 취약점 확인
도구 호출 최적화를 위한 SOLVE 모듈 제안
IRPO 학습을 통해 Qwen-2.5 모델 성능 5.0점 향상 달성

다양한 애플리케이션 전반에서 대규모 언어 모델(LLMs)의 수학적 능력의 초석으로서 수치적 추론(numerical reasoning)이 갖는 중추적인 역할에도 불구하고, 수치 처리(numerical processing)와 수학적 추론(mathematical reasoning)을 통합하여 LLM을 평가하는 벤치마크는 거의 없으며, 이는 수학 작업에서의 실패에 대한 해석 가능성(interpretability)을 저해합니다. 우리는 7,404개의 수학 문장제 문제(math word problems)에서 파생된 32,505개의 질문을 포함하며, 4개의 핵심 인지 측면(cognitive aspects), 14개의 하위 범주(subcategories), 그리고 2개의 양식(modalities)을 아우르는 포괄적인 계층적 벤치마크인 PyraMathBench를 소개합니다. 실험 결과, LLM의 성능은 부적절한 수치 계산(numerical computation)과 추상적인 수치 질문에 대한 취약한 처리 능력으로 인해 심각하게 저하되는 것으로 나타났습니다. 이를 해결하기 위해, 우리는 효율적인 도구 호출(tool calls)(퍼지 매칭(fuzzy matching) 및 저품질 호출 거부(low-quality call rejection))을 통해 LLM의 수치-수학적 시너지(numerical-mathematical synergy)를 강화하는 Smart Optimization & Learning-based VErsatile 모듈(SOLVE)과 Interactive Relative Policy Optimization (IRPO)를 제안합니다. 비교 실험을 통해 Qwen-2.5가 SOLVE 및 IRPO 학습을 통해 5.0점의 점수 향상을 달성함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

PyraMathBench: 대규모 언어 모델(LLMs)의 수학적 능력 평가 및 개선

요약

핵심 포인트

댓글