자기회귀적 저주 타파: LLM을 위한 동적 인식 엔트로피 조율 삭제 가능 강화학습
요약
LLM의 장기 추론 시 발생하는 자기회귀적 오류 전파 문제를 해결하기 위해 동적 인식 엔트로피 조율 삭제 가능 강화학습($E^3RL$)을 제안합니다. 이 방식은 모델의 불확실성을 활용해 논리적 결함을 정밀하게 절제하고 자가 치유 능력을 부여합니다.
핵심 포인트
- 자기회귀적 오류가 추론 궤적을 붕괴시키는 현상 해결
- 인식적 불확실성을 활용한 외부 신호 없는 자가 조율
- 세그먼트 수준의 적응형 임계값 및 어드밴티지 할당 도입
- AIME 등 수학 벤치마크에서 SOTA 성능 경신
- 선형적 메모리 오버헤드 유지 및 샘플 효율성 향상
강화학습 (RL)이 대규모 언어 모델 (LLMs)의 인지적 경계를 확장해 왔지만, 장기적 논리 추론 (long-horizon logical reasoning)에서의 자기회귀적 저주 (autoregressive curse)에는 여전히 취약한 경우가 많습니다. 즉, 생성 초기 단계에서 도입된 작은 인식적 섭동 (epistemic perturbations)이 마르코프 결정 과정 (Markov decision process) 흐름을 따라 돌이킬 수 없이 전파되어, 추론 궤적을 붕괴로 몰아넣는 연쇄 실패를 유발할 수 있습니다. 단 한 번의 초기 실수가 이후의 모든 추론 단계를 손상시킬 수 있는 이러한 자기회귀적 연쇄 현상을 극복하기 위해, 우리는 동적 인식 엔트로피 조율 삭제 가능 강화학습 ($\text{E}^3\text{RL}$)을 제안합니다. $\text{E}^3\text{RL}$은 모델의 내생적 국소 자기회귀 교차 엔트로피 (endogenous local autoregressive cross-entropy)를 인식적 불확실성 (epistemic uncertainty)의 고유한 좌표로 정착시킴으로써 외부 신호에 대한 의존성을 제거합니다. 세그먼트 수준의 적응형 동적 임계값 (segment-level adaptive dynamic thresholds)과 어드밴티지 할당 (advantage allocation)을 도입함으로써, $\text{E}^3\text{RL}$은 모델이 과거의 핵심-값 (KV) 캐시 스트림을 재사용하는 동시에 국소적인 논리적 결함을 정밀하게 절제할 수 있도록 하여, 추론 과정에 자가 치유 (self-healing) 능력을 부여합니다. 우리는 DeepMath-103k 데이터셋에서 $\text{E}^3\text{RL}$을 학습시켰습니다. 실험 결과에 따르면 $\text{E}^3\text{RL}$은 선형적인 메모리 오버헤드를 유지하면서도 장기 시퀀스 추론의 탐색 효율성을 재편하고 샘플 효율성 (sample efficiency)을 향상시킵니다. AIME와 같은 수학적 추론 벤치마크에서 $\text{E}^3\text{RL}$은 상당한 성능 향상을 달성하였으며, 4B 및 8B 파라미터 모델은 각각 이전의 최첨단 (SOTA) 결과를 5.349% 및 6.514% 상회했습니다. 이러한 발견은 $\text{E}^3\text{RL}$이 장기 시퀀스 추론에서의 자기회귀적 저주를 타파하며, 차세대 자가 치유 인공 일반 지능 (AGI)을 위한 이론적 및 시스템 수준의 토대를 구축함을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기