수학적 추론을 위한 역과정 합성 데이터 생성 (Reverse-Process Synthetic Data Generation)

요약

RPSDG는 수학적 추론 능력을 향상시키기 위해 쉬운 방향의 연산을 역전시켜 고품질의 단계별 합성 데이터를 생성하는 방법론입니다. 미분에서 적분으로, 혹은 무작위 표현 체인에서 정리 증명으로 이어지는 비대칭성을 활용하여 과정 감독 학습(Process-supervised learning) 데이터를 확보합니다.

핵심 포인트

연산의 비대칭성을 활용한 역과정 데이터 생성 방식
정답뿐만 아니라 단계별 풀이 과정을 포함한 데이터 확보 가능
미분-적분 및 정리 증명 분야에 적용 가능한 프레임워크
고품질 데이터 병목 현상을 해결하기 위한 합성 데이터 전략

GitHub에서 (초기) 프로젝트와 소스 코드를 확인해 보세요.

아이디어

어떤 문제들은 한 방향으로는 쉽지만 다른 방향으로는 어렵습니다. 미분(Derivative)을 하는 것은 기계적입니다. 반면 부정적분(Antiderivative)을 찾는 것은 진정한 창의성을 요구할 수 있습니다. 무작위 식을 생성하고 증명을 검증하는 것은 쉽습니다. 하지만 증명을 발견하는 것은 어렵습니다.

RPSDG (Reverse-Process Synthetic Data Generation, 역과정 합성 데이터 생성)는 이러한 비대칭성을 활용합니다. 쉬운 방향으로 모든 단계별 과정을 수행한 다음, 그 결과를 역전시켜 정답을 알고 있는 어려운 문제를 얻는 방식입니다. 결과적으로 정답뿐만 아니라 전체 유도 과정까지 포함된 과정 감독 학습 데이터(Process-supervised training data)를 얻게 됩니다.

Richard Sutton의 "The Bitter Lesson"은 컴퓨팅 자원(Compute)과 데이터에 따라 확장되는 방법론이 결국 승리할 것이라고 주장합니다. 병목 현상은 고품질 데이터에 있습니다. 세상의 많은 데이터는 잠재적(Latent)이며, 그것을 생성한 과정은 기록되어 있지 않습니다. 수학에서 증명이 발견된 방식은 대개 다듬어진 결과물 뒤에 숨겨져 있습니다. RPSDG는 그 숨겨진 과정 데이터를 제조하는 한 가지 방법입니다.

미분에서 적분으로

미분을 계산하는 것은 기계적입니다. 적분은 그렇지 않은 경우가 많습니다. 이러한 비대칭성이 우리에게 데이터 파이프라인을 제공합니다.

알려진 함수로 시작합니다. 다항식, 삼각함수, 지수함수, 로그함수와 같이 폐형(Closed-form) 미분값을 가진 함수 ($f(x)$)를 선택합니다. 복잡도를 다양하게 조절합니다.
모든 과정을 보여주며 미분합니다. $f(x)$의 미분을 수행하여 $f'(x)$를 구하되, 모든 단계를 기록합니다.
과정을 역전시킵니다. 이제 $f'(x)$가 문제가 되고 $f(x)$가 해답이 됩니다. 기록된 단계들을 역순으로 읽으면, 풀이 과정이 포함된 적분 예시가 됩니다.

다양한 복잡도의 함수들을 조합함으로써, 점진적으로 난이도가 높아지는 적분 문제들을 얻을 수 있습니다. 쉬운 방향을 실행함으로써 데이터를 생성했기 때문에, 학습 데이터에는 단계별 풀이가 무료로 따라옵니다.

랜덤 워크(Random Walk)를 통한 증명

동일한 아이디어가 정리 증명(Theorem proving)에도 적용됩니다. 증명을 생성하는 것은 어렵습니다. 하지만 그것을 검증하는 것은 (상대적으로) 쉽습니다.

표현 공간에서의 무작위 보행 (Random walks in expression space). 무작위 표현 ($e_{\text{start}}$)에서 시작합니다. 재작성 규칙 ($r_1, r_2, \ldots, r_n$)을 적용하여 ($e_{\text{end}}$)로 끝나는 중간 표현들의 체인을 얻습니다.
정리 읽기 (Read off the theorem). 쌍 ($(e_{\text{start}}, e_{\text{end}})$)은 하나의 정리 (theorem)가 됩니다. 재작성(rewrites)의 체인은 그 증명 (proof)이 됩니다.
유용할 때 역방향 적용 (Reverse when useful). 체인을 역방향으로 실행하는 것도 작동합니다. 특히 한 방향에서의 복잡한 단계(적분, integration)가 다른 방향(미분, differentiation)에서는 단순해지는 경우에 유용합니다.
확장 (Scale it). 무작위 시작점과 무작위 재작성 시퀀스는 자동으로 다양하고 풍부한 정리와 증명 세트를 제공합니다. 사람이 먼저 정리를 만들어낼 필요가 없습니다.

이를 통해 얻는 것

훈련 데이터에는 프로세스 감독 (process supervision)이 내장되어 있습니다. 모든 예시에는 최종 정답뿐만 아니라 중간 단계들이 포함됩니다. 이는 LLM (Large Language Models)이 정답에 대한 패턴 매칭 (pattern-matching) 대신 다단계 추론 (multi-step reasoning)을 학습하는 데 도움이 될 것입니다.

또한, 설명 가능성 (explainability)과 유사한 효과를 무료로 얻을 수 있습니다. 모델의 훈련 데이터가 말 그대로 단계별 풀이로 구성되어 있으므로, 모델이 추론 (inference) 시점에 단계별 추론을 생성할 가능성이 더 높아집니다.

한계 및 향후 단계

이것은 초기 연구 단계입니다. 데이터 생성 파이프라인 (pipeline)은 존재하지만, 아직 전체 미세 조정 (fine-tuning) 실험과 벤치마크 (benchmarks)를 수행하지 않았습니다. 계획된 파이프라인은 다음과 같습니다:

난이도가 점진적으로 높아지는 데이터 생성 (커리큘럼 학습, curriculum learning)
생성된 데이터로 트랜스포머 기반 언어 모델 (transformer-based LMs) 미세 조정
자기 지도 학습 (self-supervised learning) 실험
표준 수학 추론 벤치마크에 대한 평가

더 나아가, 정답을 미리 알 수 없더라도 검증이 가능한 경우, 다단계 추론에 보상을 주는 강화학습 (reinforcement learning)을 탐구하고 싶습니다.