Looped Transformers를 통한 잠재적 추론(Latent Reasoning)과 명시적 추론(Explicit Reasoning)
요약
Looped Transformer를 활용하여 잠재적 추론(Latent CoT)의 성능 한계를 극복한 LOTUS를 제안합니다. LOTUS는 3B 규모에서 명시적 CoT와의 성능 격차를 해소하며, 추론 지연 시간을 최대 6.9배까지 단축합니다.
핵심 포인트
- Looped Transformer를 통해 파라미터 추가 없이 연산 깊이 확장
- 잠재적 CoT와 명시적 CoT 간의 성능 격차 해소
- 추론 지연 시간(Latency)을 2.5배에서 6.9배까지 단축
- 잠재 공간이 해석 가능하며 CoT와 정렬되어 있음을 증명
언어 모델(Language models)은 일반적으로 토큰을 하나씩 생성하며 중간 단계를 거치는 명시적 사고 사슬 (Chain-of-Thought, CoT)을 통해 추론합니다. 잠재적 CoT (Latent CoT)는 이에 대한 대안을 제시합니다. 이는 디코딩된 토큰 대신 연속적인 표현(continuous representations)을 사용하여 모델의 은닉 상태(hidden states) 내에서 다단계 추론을 수행함으로써 더 높은 효율성을 제공합니다. 그러나 기존의 잠재적 CoT 방법들은 1B(10억) 파라미터를 넘어서면 명시적 CoT보다 성능이 떨어지며, 규모가 커질수록 그 격차는 더 벌어집니다. 파라미터를 추가하지 않고 가중치를 재사용하여 연산 깊이를 높이는 Looped Transformer(또는 순환 깊이 Transformer, recurrent-depth Transformers)는 잠재적 추론에 자연스럽게 적합합니다. 따라서 우리는 Looped Transformer가 이 격차를 메울 수 있는지 질문합니다. 우리는 간단한 레시피를 통해 이에 대해 긍정적인 답변을 내놓습니다. 즉, R번의 반복(iterations) 동안 K개의 잠재적 블록(latent blocks)을 병렬로 처리하는 Looped padded Transformer를 사용하며, 명시적 CoT 감독(supervision)과 유사하게 각 잠재적 위치의 정답(gold) CoT 단계 토큰에 대해 교차 엔트로피 손실(cross-entropy loss)을 적용하는 방식입니다. 우리는 이를 LOTUS (Looped Transformers with parallel supervision on latents)로 구현했습니다. LOTUS는 우리가 아는 한, 3B 규모에서 명시적 CoT와의 격차를 해소한 최초의 잠재적 CoT 방법이며, 압축된 수학 표현부터 자연어에 이르기까지 사고 단계의 지연 시간(latency)을 2.5배에서 6.9배까지 단축합니다. 루프 이후의 LOTUS 잠재 상태(post-loop latents)를 기본 LM 헤드(base LM head)를 통해 투영하면 정답 추론 단계를 복구할 수 있으며, 심지어 대안적인 유효 중간 단계들도 나타나는데, 이는 잠재 공간(latent space)이 해석 가능하고 CoT와 정렬(aligned)되어 있다는 증거입니다. 절제 연구(Ablations)를 통해 Looped 백본(backbone)과 정답 CoT 토큰에 대한 병렬 감독(parallel supervision)이 모두 필수적임을 확인했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기