arXiv논문2026. 05. 08. 12:50

Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key

요약

본 기사는 LLM의 추론 능력을 향상시키기 위해 강화학습(RL)을 적용하는 새로운 접근 방식인 ScaleLogic을 소개합니다. ScaleLogic은 요구되는 증명 계획의 깊이(지평선)와 기본 논리의 표현력이라는 두 가지 독립적인 난이도 축을 제어할 수 있는 합성 논리 추론 프레임워크입니다. 이 프레임워크는 다양한 논리를 지원하며, LLM이 장기 지평선의 복잡한 추론 능력을 학습하도록 체계적으로 훈련하는 것을 목표로 합니다.

핵심 포인트

LLM의 추론 능력 개선을 위해 강화학습(RL) 적용 연구가 필요하지만, 기존에는 난이도 확장성 연구에 어려움이 있었습니다.
ScaleLogic은 RL 기반 LLM 훈련을 위한 합성 논리 추론 프레임워크입니다.
이 프레임워크는 '요구되는 증명 계획의 깊이(지평선)'와 '기본 논리의 표현력'이라는 두 가지 독립적인 난이도 축을 제어할 수 있습니다.
ScaleLogic은 단순한 함축만 논리 등 다양한 종류의 논리를 지원하여 체계적인 학습 환경을 제공합니다.

강화학습 (RL) 은 대형 언어 모델 (LLM) 의 추론 능력을 개선하는 데 적용되어 왔으나, 훈련이 과제 난이도와 어떻게 확장되는지에 대한 체계적인 연구는 통제된, 확장 가능한 환경의 부재로 인해 방해받았습니다. 우리는 강화학습 (RL) 을 위한 독립적으로 두 가지 난이도 축을 제어할 수 있는 합성 논리 추론 프레임워크인 ScaleLogic을 소개합니다: 요구되는 증명 계획의 깊이 (즉, 지평선) 와 기본 논리의 표현력. 제안된 프레임워크는 다양한 논리를 지원합니다: 단순한 함축만 논리 (

AI 자동 생성 콘텐츠

원문 바로가기

Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key

요약

핵심 포인트

댓글