재귀성 없이 순환 신경망(Recurrent Networks) 사전 학습하기
요약
RNN의 고질적인 문제인 기울기 소실과 병렬성 제한을 해결하기 위한 지도 메모리 학습(SMT) 방법론을 제안합니다. SMT는 재귀적 크레딧 전파를 우회하여 RNN을 단일 단계 지도 학습으로 변환함으로써 시간 병렬적 학습과 안정적인 기울기 경로를 제공합니다.
핵심 포인트
- BPTT의 병렬성 제한 및 기울기 문제 해결
- 지도 메모리 학습(SMT)을 통한 재귀성 없는 학습
- Transformer 기반 인코더를 활용한 메모리 레이블 획득
- 언어 및 픽셀 시퀀스 모델링에서 BPTT 대비 우수한 성능
순환 신경망 (RNNs)을 학습시키기 위해서는 긴 계산 시퀀스 전반에 걸쳐 크레딧(credit)을 할당해야 합니다. 표준적인 시간 기반 오차 역전파 (BPTT) 방식은 이 문제를 제대로 해결하지 못합니다. BPTT는 시간 순서에 따라 순차적으로 진행되어 병렬성을 제한하며, 기울기 소실 (vanishing gradients) 또는 기울기 폭주 (exploding gradients) 문제로 인해 장기적인 연관 관계를 학습하는 데 어려움을 겪습니다. 우리는 비선형 RNN을 학습시키기 위한 방법론인 지도 메모리 학습 (Supervised Memory Training, SMT)을 제안합니다. SMT는 RNN 학습을 단일 단계 메모리 전이 레이블 $(m_t, x_{t+1})
ightarrow m_{t+1}$에 대한 지도 학습 (supervised learning)으로 축소함으로써, 재귀적 크레딧 전파 (recurrent credit propagation) 과정을 완전히 우회합니다. SMT는 예측 상태 목적 함수 (predictive state objective) — 즉, 미래를 예측하는 데 필요한 과거의 정보만을 유지하는 방식 — 를 사용하여 Transformer 기반 인코더를 학습시킴으로써 이러한 메모리 레이블을 획득합니다. 무엇을 기억할 것인가와 메모리를 어떻게 업데이트할 것인가를 분리함으로써, SMT는 RNN을 한 번도 펼치지(unrolling) 않고도 임의의 두 토큰 사이에서 안정적인 $O(1)$ 길이의 기울기 경로를 가지며 시간 병렬적인 RNN 학습을 가능하게 합니다. 우리는 언어 모델링 (language modeling) 및 픽셀 시퀀스 모델링 (pixel sequence modeling)과 같은 작업에서 다양한 RNN 아키텍처를 사전 학습할 때 SMT가 BPTT보다 성능이 뛰어남을 확인했습니다. SMT는 비선형 RNN이 장기 의존성 (long-range dependencies)을 더 잘 포착하고 병렬로 학습할 수 있게 하여, 과거 경험의 시간적 추상화 (temporal abstractions)를 구축하는 모델의 스케일링 (scaling)을 잠재적으로 실현할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기