딥러닝 기반 수학 추론 에이전트 DeepMath 개발 및 성능 분석
요약
본 글은 LLM의 한계인 복잡한 수학 문제 해결 과정의 비효율성과 오류 가능성을 개선하기 위해 'DeepMath'라는 경량화된 수학 추론 에이전트를 소개합니다. DeepMath는 Qwen3-4B Thinking 모델을 기반으로 하며, Python 코드를 안전하게 실행할 수 있는 샌드박스 환경과 smolagents 라이브러리를 결합했습니다. 특히 GRPO (Group Relative Policy Optimization)라는 보상 기반 최적화 기법을 통해 모델이 장황한 설명 대신 간결하고 계산 중심적인 코드 스니펫을 선호하도록 학습시켰
핵심 포인트
- DeepMath는 Qwen3-4B Thinking 모델에 Python 실행기(Executor)를 결합하여, 수학 추론 과정에서 발생하는 산술 오류와 긴 출력을 줄였습니다.
- GRPO (Group Relative Policy Optimization) 훈련을 통해 에이전트가 간결하고 계산 중심적인 코드 스니펫 생성을 선호하도록 유도했으며, 이는 성능 향상에 결정적이었습니다.
- DeepMath는 MATH500, AIME 등 네 가지 수학 데이터셋에서 최대 66%까지 출력 길이를 단축시키면서 정확도를 개선하는 효과를 보였습니다.
- 샌드박스 환경을 통해 코드 실행의 안전성(No file I/O, No network)과 해석 가능성을 확보하고, determinism을 높였습니다.
대규모 언어 모델(LLM)은 전반적인 추론 능력이 뛰어나지만, 수학적 문제 해결 영역에서는 여전히 어려움을 겪습니다. 특히 '사고의 사슬(Chain-of-Thought)' 방식의 풀이 과정은 길고 복잡하며, 산술 계산 오류에 취약하다는 한계가 있습니다.
DeepMath는 이러한 문제를 해결하기 위해 설계된 경량화된 수학 추론 에이전트입니다. 이 에이전트는 Qwen3-4B Thinking 모델을 기반으로 하며, 핵심적으로 Python 코드를 안전하게 실행할 수 있는 샌드박스(Sandbox) 환경과 smolagents 라이브러리를 결합하여 작동합니다.
DeepMath의 설계 목표 및 구조
DeepMath는 두 가지 주요 목표에 초점을 맞췄습니다. 첫째, 결정론적 계산을 안전한 실행기(Executor)로 분리하는 것입니다. 둘째, 모델이 장황한 텍스트 설명 대신 간결하고 계산 중심적인 코드 스니펫을 선호하도록 학습시키는 것입니다.
작동 방식: 추론 과정 중 DeepMath는 일반 토큰 외에 Python 코드를 포함하는 특수 에이전트 호출(Special Agent Calls)을 출력할 수 있습니다. 이 코드는 샌드박스 환경에서 실행되며, 파일 입출력(File I/O)이나 네트워크 접근 등의 위험 요소가 엄격하게 제한됩니다. 실행된 결과는 다시 추론 컨텍스트에 통합되어 다음 단계의 근거로 사용됩니다.
핵심 기술: DeepMath를 구동하기 위해 GRPO (Group Relative Policy Optimization)라는 보상 기반 최적화 기법이 활용되었습니다. 이 훈련 과정은 모델에게 다음과 같은 행동을 유도합니다:
- 정확성 보상 (Accuracy Reward): 정답을 맞힐 때 +1의 보상을 부여합니다.
- 코드 스니펫 사용 보상: 코드 스니펫 생성에 대한 가중치 높은 보상을 주어, 모델이 코드를 적극적으로 활용하도록 장려합니다.
- 길이 단축 유도 (Length Reduction): 간결한 출력을 선호하도록 학습을 진행했습니다.
또한, 초기 훈련 단계에서 온도 스케줄링(Temperature Scheduling: T=1.2 $ o$ T=0.7)을 적용하여 탐색과 안정성을 균형 있게 맞추는 방식을 채택했습니다.
성능 및 의의
DeepMath를 MATH500, AIME, HMMT, HLE 등 네 가지 수학 데이터셋에 대해 벤치마킹한 결과, 다음과 같은 뛰어난 성과를 입증했습니다:
- 효율성: 에이전트 사용만으로 출력 길이가 최대 66%까지 단축되었으며, 이는 추론 속도 향상 및 해석 용이성 증대로 이어집니다.
- 정확도: 계산 과정을 외부 실행기에 맡김으로써 수동적인 산술 오류(Arithmetic Errors)를 근본적으로 줄였습니다. GRPO 훈련과 에이전트적 추론(Agentic Inference)을 모두 적용했을 때 가장 높은 정확도를 보였습니다.
- 안전성 및 해석 가능성: 모든 코드는 엄격하게 통제된 샌드박스에서 실행되므로, 임의 코드 실행으로 인한 보안 위험을 최소화하고 풀이 과정을 명확히 감사(Auditable)할 수 있습니다.
결론적으로 DeepMath는 대규모 모델의 거대한 크기나 복잡한 외부 도구 없이도, 경량화된 구조와 정교한 훈련 방식을 통해 높은 정확도와 해석 가능성을 갖춘 실용적인 수학 문제 해결 에이전트를 제시합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Hugging Face Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기