arXiv논문2026. 05. 29. 12:54

잠재적 추론 (Latent Reasoning)을 위한 대규모 언어 모델 (LLM)의 작업 기억 (Working Memory) 활용

요약

LLM의 추론 능력을 높이기 위해 중간 토큰 생성 대신 작업 기억(Working Memory)을 활용하는 RiM 방법론을 제안합니다. 고정된 메모리 블록을 사용하여 단일 순전파로 연산 효율성을 높이면서도 기존 방식과 대등하거나 뛰어난 추론 성능을 입증했습니다.

핵심 포인트

자기회귀 생성 대신 메모리 블록을 통한 잠재적 추론 구현
단일 순전파(Single Forward Pass)를 통한 연산 효율성 확보
2단계 커리큘럼 학습을 통한 메모리 블록의 접지 및 정제
다양한 모델 크기에서 기존 잠재적 추론 방식 대비 우수한 성능

대규모 언어 모델 (Large Language Models, LLMs)의 추론 능력을 향상시키기 위해, 일반적으로 최종 답변을 내놓기 전 중간 토큰 (intermediate tokens)을 생성함으로써 테스트 시간 연산 (test-time compute)을 확장합니다. 그러나 이는 추론을 자기회귀 생성 (autoregressive generation)과 결합하며, 이로 인해 내부 연산 (internal computation)과 외부 통신 (external communication)이 혼재됩니다. 이와 대조적으로, 인간의 인지 (human cognition)는 중간 사고를 외부화할 필요 없이 정보를 내부적으로 유지하고 조작하기 위해 작업 기억 (working memory)을 사용할 수 있습니다. 이러한 원리에 착안하여, 우리는 추론 단계의 자기회귀 생성 (autoregressive generation)을 메모리 블록 (memory blocks)으로 대체하는 잠재적 추론 (latent reasoning) 방법론인 RiM (Reasoning in Memory)을 소개합니다. 이 메모리 블록은 대규모 언어 모델의 작업 기억 용량을 해제하는 특수 토큰 (special tokens)의 고정된 시퀀스입니다. 이들은 생성되는 것이 아니라 고정되어 있기 때문에 단일 순전파 (single forward pass) 과정에서 처리될 수 있으며, 이를 통해 연산 효율적인 잠재적 추론 (latent reasoning)을 가능하게 합니다. 이러한 메모리 블록을 실행하기 위해, 우리는 2단계 커리큘럼 (two-stage curriculum)을 채택합니다. 첫째, 각 메모리 블록 이후에 명시적인 추론 단계를 예측함으로써 이를 접지 (grounding)합니다. 둘째, 이러한 단계별 지도 학습 (step-level supervision)을 폐기하고 각 메모리 블록 이후에 최종 답변을 반복적으로 정제합니다. 추론 벤치마크에 대한 실험 결과, 서로 다른 계열과 크기의 언어 모델 전반에 걸쳐 RiM은 사고의 자기회귀 생성 (autoregressive generation of thoughts)을 피하면서도 기존의 잠재적 추론 (latent reasoning) 방법들과 대등하거나 이를 능가하는 성능을 보여주었습니다. 이러한 결과는 대규모 언어 모델이 잠재적 추론을 위한 효과적인 메커니즘으로서 작업 기억 (working memory)을 사용하도록 훈련될 수 있음을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

잠재적 추론 (Latent Reasoning)을 위한 대규모 언어 모델 (LLM)의 작업 기억 (Working Memory) 활용

요약

핵심 포인트

댓글