Reddit요약2026. 06. 20. 09:01

Next-Latent Prediction Transformers [R]

요약

Microsoft Research가 제안한 NextLat은 트랜스포머가 다음 토큰 대신 다음 잠재 상태를 예측하도록 학습하는 자기지도 학습 방법론입니다. 이를 통해 압축된 세계 모델을 형성하여 추론과 계획 능력을 향상시키고, 자기 투기적 디코딩을 통해 추론 속도를 최대 3.3배 높입니다.

핵심 포인트

다음 잠재 상태 예측을 통한 압축된 신념 상태 형성
잠재 공간 예측을 통한 데이터 효율성 및 밀도 높은 감독 제공
재귀적 다단계 예측을 통한 최대 3.3배 빠른 추론 속도 구현
추론 및 계획 능력을 갖춘 세계 모델 구축 가능성 제시

Microsoft Research 프리프린트 (Preprint)

다음 토큰 예측 (Next-token prediction)은 근시안적입니다. 만약 트랜스포머 (Transformers)가 자신의 다음 잠재 상태 (next latent state)를 예측하도록 학습한다면 어떨까요?

Microsoft Research는 추론 (reasoning)과 계획 (planning)을 위한 압축된 세계 모델 (world models)을 형성하도록 트랜스포머를 가르치는 자기지도 학습 (self-supervised learning) 방법론인 Next-Latent Prediction (NextLat)을 선보입니다. 또한, 자기 투기적 디코딩 (self-speculative decoding)을 통해 최대 3.3배 빠른 추론 (inference)을 가능하게 합니다!

다음 토큰 예측 (next-token prediction) 위에, NextLat은 현재 잠재 상태 (latent state)와 다음 토큰 (next token)이 주어졌을 때 트랜스포머가 자신의 다음 잠재 상태를 예측하도록 훈련합니다.

NextLat은 몇 가지 주요 이점을 가집니다:

표현 학습 (Representation Learning): NextLat은 트랜스포머가 과거 이력을 압축된 신념 상태 (belief states)로 압축하도록 유도합니다.
더 나은 데이터 효율성 (Better Data Efficiency): 잠재 공간 (latent space)에서의 예측은 원-핫 토큰 (one-hot tokens)을 예측하는 것보다 더 조밀한 감독 (denser supervision)을 제공합니다.
더 빠른 추론 (Faster Inference): 재귀적 다단계 예측 (recursive multi-step lookahead)을 통해 가능합니다.

저는 이 연구가 매우 기대됩니다. 아래에서 꼭 확인해 보세요:
💬 블로그 (Blog): https://jaydenteoh.github.io/blog/2026/nextlat
💻 코드 (Code): https://github.com/JaydenTeoh
📝 논문 (Paper): https://arxiv.org/abs/2511.05963
/u/jayden_teoh_ 에 의해 r/MachineLearning 에 제출됨
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

Next-Latent Prediction Transformers [R]

요약

핵심 포인트

댓글