Looped Transformers를 통한 잠재적 추론(Latent Reasoning)과 명시적 추론(Explicit Reasoning)

언어 모델(Language models)은 일반적으로 토큰을 하나씩 생성하며 중간 단계를 거치는 명시적 사고 사슬 (Chain-of-Thought, CoT)을 통해 추론합니다. 잠재적 CoT (Latent CoT)는 이에 대한 대안을 제시합니다. 이는 디코딩된 토큰 대신 연속적인 표현(continuous representations)을 사용하여 모델의 은닉 상태(hidden states) 내에서 다단계 추론을 수행함으로써 더 높은 효율성을 제공합니다. 그러나 기존의 잠재적 CoT 방법들은 1B(10억) 파라미터를 넘어서면 명시적 CoT보다 성능이 떨어지며, 규모가 커질수록 그 격차는 더 벌어집니다. 파라미터를 추가하지 않고 가중치를 재사용하여 연산 깊이를 높이는 Looped Transformer(또는 순환 깊이 Transformer, recurrent-depth Transformers)는 잠재적 추론에 자연스럽게 적합합니다. 따라서 우리는 Looped Transformer가 이 격차를 메울 수 있는지 질문합니다. 우리는 간단한 레시피를 통해 이에 대해 긍정적인 답변을 내놓습니다. 즉, R번의 반복(iterations) 동안 K개의 잠재적 블록(latent blocks)을 병렬로 처리하는 Looped padded Transformer를 사용하며, 명시적 CoT 감독(supervision)과 유사하게 각 잠재적 위치의 정답(gold) CoT 단계 토큰에 대해 교차 엔트로피 손실(cross-entropy loss)을 적용하는 방식입니다. 우리는 이를 LOTUS (Looped Transformers with parallel supervision on latents)로 구현했습니다. LOTUS는 우리가 아는 한, 3B 규모에서 명시적 CoT와의 격차를 해소한 최초의 잠재적 CoT 방법이며, 압축된 수학 표현부터 자연어에 이르기까지 사고 단계의 지연 시간(latency)을 2.5배에서 6.9배까지 단축합니다. 루프 이후의 LOTUS 잠재 상태(post-loop latents)를 기본 LM 헤드(base LM head)를 통해 투영하면 정답 추론 단계를 복구할 수 있으며, 심지어 대안적인 유효 중간 단계들도 나타나는데, 이는 잠재 공간(latent space)이 해석 가능하고 CoT와 정렬(aligned)되어 있다는 증거입니다. 절제 연구(Ablations)를 통해 Looped 백본(backbone)과 정답 CoT 토큰에 대한 병렬 감독(parallel supervision)이 모두 필수적임을 확인했습니다.

Insights

Looped Transformers를 통한 잠재적 추론(Latent Reasoning)과 명시적 추론(Explicit Reasoning)

요약

핵심 포인트

댓글

무엇이 META 주가를 현재보다 더 높게 끌어올릴 수 있을까?

USDA 보고서를 앞두고 월요일 대두 가격 하락

월요일 옥수수 가격 4달러 아래로 하락

Jefferies의 등급 상향 이후 FuelCell Energy 주식에 대응하는 방법

USDA 보고서를 앞두고 월요일 대두 가격 하락

월요일 옥수수 가격 4달러 아래로 하락

Jefferies의 등급 상향 이후 FuelCell Energy 주식에 대응하는 방법