arXiv논문2026. 04. 28. 17:40

IRIS: 다국어 수학적 추론을 위한 단계별 커리큘럼과 병렬 강화학습

요약

본 논문은 다국어 및 저자원 환경에서의 수학적 추론 능력을 향상시키기 위해 IRIS(Interleaved Reinforcement with Incremental Staged Curriculum)라는 새로운 2차원 프레임워크를 제안합니다. 이 프레임워크는 난이도에 따른 점진적 학습을 위한 커리큘럼 학습과, 단계별 안내 의존성을 줄이는 역 커리큘럼 강화학습을 결합했습니다. IRIS는 합성 보상 및 GRPO 최적화를 통해 훈련되었으며, 영어, 힌디어, 마라티어 등 다국어 환경에서 강력한 성능 향상을 입증했습니다.

핵심 포인트

IRIS는 커리큘럼 학습(Curriculum Learning)과 강화학습(RL)을 결합한 2차원 프레임워크입니다.
수직 축은 점진적 난이도 증가를 위한 감독 미세 조정, 수평 축은 단계별 안내 의존성 감소를 위한 역 커리큘럼 RL을 수행합니다.
정확성, 정렬, 연속성 등을 포함하는 합성 보상(composite reward)과 GRPO 최적화 기법을 사용했습니다.
영어, 힌디어, 마라티어 등 다국어 환경에서 수학적 추론 작업의 성능을 크게 개선시켰습니다.

커리큘럼 학습 (Curriculum learning) 은 작업의 난이도를 점진적으로 높여 언어 모델이 복잡한 추론 문제를 해결하도록 돕습니다. 그러나 이는 특히 영어에서 인도어 언어들로 넘어가는 교차언어 전이가 제한된 다국어 및 저자원 환경에서 일관된 단계별 추론을 생성하는 데 자주 실패합니다. 우리는 커리큘럼 학습 (Curriculum learning) 과 강화학습 (RL) 을 결합한 IRIS: Interleaved Reinforcement with Incremental Staged Curriculum 을 제안합니다. 이는 수직 축으로 점진적으로 더 어려운 문제에 대한 감독 미세 조정 (Supervised Fine-Tuning) 과, 단계별 안내에 대한 의존성을 줄이기 위한 수평 축의 역 커리큘럼 강화학습 (Reverse Curriculum Reinforcement Learning) 을 결합한 2 차원 프레임워크입니다. 우리는 정확성, 단계별 정렬 (step-wise alignment), 연속성, 그리고 수치적 인센티브를 포함하는 합성 보상 (composite reward) 을 설계했으며, 이를 그룹 상대 정책 최적화 (Group Relative Policy Optimization, GRPO) 를 통해 최적화했습니다. 우리는 영어, 힌디어, 마라티어에서 단계 수준의 주석이 달린 29,000 개의 문제를 포함한 CL-Math 데이터셋을 공개합니다. 표준 벤치마크와 다국어 테스트 세트에서 IRIS 는 일관된 성능 향상을 보였으며, 특히 수학적 추론 작업에서 강력한 결과를 얻고 저자원 및 양어 환경에서 상당한 개선을 이루었습니다. 또한 고자원 언어에서도适度的인 개선이 있었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

IRIS: 다국어 수학적 추론을 위한 단계별 커리큘럼과 병렬 강화학습

요약

핵심 포인트

댓글