본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 28. 17:40

IRIS: 다국어 수학적 추론을 위한 단계별 커리큘럼과 병렬 강화학습

요약

본 논문은 다국어 및 저자원 환경에서의 수학적 추론 능력을 향상시키기 위해 IRIS(Interleaved Reinforcement with Incremental Staged Curriculum)라는 새로운 2차원 프레임워크를 제안합니다. 이 프레임워크는 난이도에 따른 점진적 학습을 위한 커리큘럼 학습과, 단계별 안내 의존성을 줄이는 역 커리큘럼 강화학습을 결합했습니다. IRIS는 합성 보상 및 GRPO 최적화를 통해 훈련되었으며, 영어, 힌디어, 마라티어 등 다국어 환경에서 강력한 성능 향상을 입증했습니다.

핵심 포인트

  • IRIS는 커리큘럼 학습(Curriculum Learning)과 강화학습(RL)을 결합한 2차원 프레임워크입니다.
  • 수직 축은 점진적 난이도 증가를 위한 감독 미세 조정, 수평 축은 단계별 안내 의존성 감소를 위한 역 커리큘럼 RL을 수행합니다.
  • 정확성, 정렬, 연속성 등을 포함하는 합성 보상(composite reward)과 GRPO 최적화 기법을 사용했습니다.
  • 영어, 힌디어, 마라티어 등 다국어 환경에서 수학적 추론 작업의 성능을 크게 개선시켰습니다.

커리큘럼 학습 (Curriculum learning) 은 작업의 난이도를 점진적으로 높여 언어 모델이 복잡한 추론 문제를 해결하도록 돕습니다. 그러나 이는 특히 영어에서 인도어 언어들로 넘어가는 교차언어 전이가 제한된 다국어 및 저자원 환경에서 일관된 단계별 추론을 생성하는 데 자주 실패합니다. 우리는 커리큘럼 학습 (Curriculum learning) 과 강화학습 (RL) 을 결합한 IRIS: Interleaved Reinforcement with Incremental Staged Curriculum 을 제안합니다. 이는 수직 축으로 점진적으로 더 어려운 문제에 대한 감독 미세 조정 (Supervised Fine-Tuning) 과, 단계별 안내에 대한 의존성을 줄이기 위한 수평 축의 역 커리큘럼 강화학습 (Reverse Curriculum Reinforcement Learning) 을 결합한 2 차원 프레임워크입니다. 우리는 정확성, 단계별 정렬 (step-wise alignment), 연속성, 그리고 수치적 인센티브를 포함하는 합성 보상 (composite reward) 을 설계했으며, 이를 그룹 상대 정책 최적화 (Group Relative Policy Optimization, GRPO) 를 통해 최적화했습니다. 우리는 영어, 힌디어, 마라티어에서 단계 수준의 주석이 달린 29,000 개의 문제를 포함한 CL-Math 데이터셋을 공개합니다. 표준 벤치마크와 다국어 테스트 세트에서 IRIS 는 일관된 성능 향상을 보였으며, 특히 수학적 추론 작업에서 강력한 결과를 얻고 저자원 및 양어 환경에서 상당한 개선을 이루었습니다. 또한 고자원 언어에서도适度的인 개선이 있었습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0