상태 예측 분리 가설 (The State-Prediction Separation Hypothesis)

Transformers는 다음 토큰을 예측하는 것과 향후 토큰 예측을 위한 유용한 상태 (state)를 저장하는 것 모두에 동일한 순방향 계산 스트림 (forward computation stream)을 사용합니다. 우리는 extit{상태 예측 분리 가설 (state-prediction separation hypothesis)}을 공식화합니다: 이 두 역할을 분리하는 것이 더 나은 언어 모델링 (language modeling) 성능을 가져온다는 것입니다. 우리는 두 기능을 분리하기 위해 두 개의 계산 스트림을 사용하는 Transformer 변형 모델을 설계하고, 다양한 규모에 걸쳐 사전 학습 (pretraining) 실험을 수행합니다. 우리의 실험 결과, 상태 예측 분리는 일관되게 더 나은 데이터 및 계산 효율성을 제공하며, 검증 손실 (validation loss)을 개선하고 다운스트림 태스크 (downstream tasks)에서 표준 Transformers보다 평균 2~3 퍼센트 포인트 더 높은 성능을 보임을 입증했습니다. 또한 우리는 잠재적인 교란 요인 (confounders)을 배제하고 우리의 설계가 초래하는 그래디언트 (gradients)의 근본적인 차이를 입증하는 광범위한 경험적 분석을 수행합니다.

Insights

상태 예측 분리 가설 (The State-Prediction Separation Hypothesis)

요약

핵심 포인트

댓글

런타임 Helios-를 통해 의도가 명시적으로 강제되는 Prehook Gated Execution Policy Layer: Akashic은 각

Show HN: Meow – 네 번째이자 마지막 JavaScript 런타임 및 툴체인

더 많은 재배 면적과 재고량, 제품 약세에도 불구하고 상승세를 보이는 대두

USDA 보고서 이후 옥수수 강세론자들의 영향력 확대, 곡물 재고 데이터가 낙관적 전망 뒷받침

런타임 Helios-를 통해 의도가 명시적으로 강제되는 Prehook Gated Execution Policy Layer: Akashic은 각

Show HN: Meow – 네 번째이자 마지막 JavaScript 런타임 및 툴체인

더 많은 재배 면적과 재고량, 제품 약세에도 불구하고 상승세를 보이는 대두

USDA 보고서 이후 옥수수 강세론자들의 영향력 확대, 곡물 재고 데이터가 낙관적 전망 뒷받침