언어 모델을 위한 산술 교수법
요약
인간의 수학 교수법인 GASING 방식을 활용하여 소규모 언어 모델의 산술 추론 능력을 향상시키는 연구를 소개합니다. 별도의 강화 학습 없이 다음 토큰 예측만으로 학습시킨 결과, 모델이 절차적 경로를 내재화하고 암산 능력을 갖추는 과정을 기계론적 분석으로 증명했습니다.
핵심 포인트
- GASING 교수법 기반의 계산 절차를 CoT 데이터로 구현
- 86M 파라미터 소규모 GPT-2 모델로 높은 산술 정확도 달성
- 기계론적 분석을 통해 모델의 단계별 학습 과정 규명
- 타겟팅된 교수법이 소규모 모델의 경제적 성능 향상에 기여
우리는 인간의 수학 교수법(pedagogy)이 언어 모델(language models)의 산술 추론(arithmetic reasoning) 학습을 가이드할 수 있는지 조사합니다. 토큰 생성의 인과적 순서(causal order)와 일치하는 좌측에서 우측 방향의 절차를 통해 기초 산술을 해결하는 인도네시아의 교수법인 GASING 방식에 기반하여, 우리는 각 연산을 실행 추적(execution trace)이 자연어 사고 사슬(Chain-of-Thought, CoT) 감독 데이터로 직렬화되는 계산 절차(computational procedure)로 구현합니다. 인도네시아어용 교착어적 음절 토크나이저(syllabic-agglutinative TOBA tokenizer)를 사용하는 소규모 GPT-2 디코더(86M 파라미터)를 강화 학습(reinforcement learning)이나 보상 기반 최적화(reward-based optimization) 없이 오직 다음 토큰 예측(next-token prediction) 목적 함수만을 사용하여 이 데이터로 처음부터 학습시킵니다. 학습 과정을 모니터링한 결과 세 가지의 뚜렷한 학습 단계가 드러났으며, CoT 정보 그래프에 대한 어텐션 마스킹 개입(attention-masking interventions), 잔차 연결 프로빙(residual-stream probing), 로짓 렌즈 검사(logit-lens inspection)와 같은 기계론적 분석(mechanistic analyses)을 통해 모델이 먼저 절차적 경로(procedural pathway)를 내재화한 후, 명시적인 단계별 계산 없이 중간 결과값을 인출하는 연상적 "암산(mental-arithmetic)" 능력을 개발함을 보여줍니다. 학습된 모델은 홀드아웃(held-out) 문제에서 80% 이상의 정확도에 도달하며 훨씬 더 큰 언어 모델들과 비교해도 경쟁력 있는 성능을 달성하였으며, 이는 타겟팅된 교수법 기반의 학습이 소규모에서도 강력하고 경제적인 산술 능력을 생성할 수 있음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기