arXiv논문2026. 06. 17. 11:51

자기회귀적 저주 타파: LLM을 위한 동적 인식 엔트로피 조율 삭제 가능 강화학습

요약

LLM의 장기 추론 시 발생하는 자기회귀적 오류 전파 문제를 해결하기 위해 동적 인식 엔트로피 조율 삭제 가능 강화학습($E^3RL$)을 제안합니다. 이 방식은 모델의 불확실성을 활용해 논리적 결함을 정밀하게 절제하고 자가 치유 능력을 부여합니다.

핵심 포인트

자기회귀적 오류가 추론 궤적을 붕괴시키는 현상 해결
인식적 불확실성을 활용한 외부 신호 없는 자가 조율
세그먼트 수준의 적응형 임계값 및 어드밴티지 할당 도입
AIME 등 수학 벤치마크에서 SOTA 성능 경신
선형적 메모리 오버헤드 유지 및 샘플 효율성 향상

강화학습 (RL)이 대규모 언어 모델 (LLMs)의 인지적 경계를 확장해 왔지만, 장기적 논리 추론 (long-horizon logical reasoning)에서의 자기회귀적 저주 (autoregressive curse)에는 여전히 취약한 경우가 많습니다. 즉, 생성 초기 단계에서 도입된 작은 인식적 섭동 (epistemic perturbations)이 마르코프 결정 과정 (Markov decision process) 흐름을 따라 돌이킬 수 없이 전파되어, 추론 궤적을 붕괴로 몰아넣는 연쇄 실패를 유발할 수 있습니다. 단 한 번의 초기 실수가 이후의 모든 추론 단계를 손상시킬 수 있는 이러한 자기회귀적 연쇄 현상을 극복하기 위해, 우리는 동적 인식 엔트로피 조율 삭제 가능 강화학습 ($\text{E}^3\text{RL}$)을 제안합니다. $\text{E}^3\text{RL}$은 모델의 내생적 국소 자기회귀 교차 엔트로피 (endogenous local autoregressive cross-entropy)를 인식적 불확실성 (epistemic uncertainty)의 고유한 좌표로 정착시킴으로써 외부 신호에 대한 의존성을 제거합니다. 세그먼트 수준의 적응형 동적 임계값 (segment-level adaptive dynamic thresholds)과 어드밴티지 할당 (advantage allocation)을 도입함으로써, $\text{E}^3\text{RL}$은 모델이 과거의 핵심-값 (KV) 캐시 스트림을 재사용하는 동시에 국소적인 논리적 결함을 정밀하게 절제할 수 있도록 하여, 추론 과정에 자가 치유 (self-healing) 능력을 부여합니다. 우리는 DeepMath-103k 데이터셋에서 $\text{E}^3\text{RL}$을 학습시켰습니다. 실험 결과에 따르면 $\text{E}^3\text{RL}$은 선형적인 메모리 오버헤드를 유지하면서도 장기 시퀀스 추론의 탐색 효율성을 재편하고 샘플 효율성 (sample efficiency)을 향상시킵니다. AIME와 같은 수학적 추론 벤치마크에서 $\text{E}^3\text{RL}$은 상당한 성능 향상을 달성하였으며, 4B 및 8B 파라미터 모델은 각각 이전의 최첨단 (SOTA) 결과를 5.349% 및 6.514% 상회했습니다. 이러한 발견은 $\text{E}^3\text{RL}$이 장기 시퀀스 추론에서의 자기회귀적 저주를 타파하며, 차세대 자가 치유 인공 일반 지능 (AGI)을 위한 이론적 및 시스템 수준의 토대를 구축함을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

자기회귀적 저주 타파: LLM을 위한 동적 인식 엔트로피 조율 삭제 가능 강화학습

요약

핵심 포인트

댓글