arXiv논문2026. 05. 26. 13:38

로그 깊이 순환 유닛(Log-Depth Recurrent Units)을 이용한 길이 일반화

요약

신경망의 길이 일반화 문제를 해결하기 위해 로그 깊이 순환 유닛(MLP-LDRU)을 제안합니다. 이 모델은 병렬 리덕션을 통해 순환을 근사하며, 정규 언어 및 NLP 벤치마크에서 기존 모델을 능가하는 성능을 보였습니다.

핵심 포인트

MLP-LDRU를 통한 시퀀스 길이 일반화 문제 해결
병렬 리덕션을 활용한 순환 구조의 효율적 근사
21개 정규 언어 태스크에서 압도적인 OOD 정확도 달성
ListOps 및 NLP 분류 벤치마크에서의 경쟁력 입증

길이 일반화(Length generalization)는 신경망(Neural networks)에게 지속적인 과제로 남아 있습니다. 순환 모델(Recurrent models)은 위치 편향(Positional biases)을 겪는 경향이 있는 반면, 트랜스포머(Transformers)는 고정된 계산 깊이(Computational depth)에 의해 제약을 받습니다. 정규 언어(Regular languages)는 레이블 예측(Label prediction)을 임의의 시퀀스 길이(Sequence length)에 대해 확인할 수 있으므로, 길이 일반화를 평가하기 위한 빈번하게 사용되는 테스트베드(Testbed)를 제공합니다. 본 논문에서는 병렬 리덕션(Parallel reduction)을 통해 순환(Recurrence)을 근사하도록 설계된 결합 법칙 편향 연산자(Associativity-biased operators) 클래스를 포착하는 로그 깊이 순환 유닛(Log-Depth Recurrent Unit)의 일종인 MLP-LDRU를 제안합니다. 우리는 표준 벤치마크와 새로운 접두사 언어(Prefix languages)로 구성된 21개의 정규 언어 태스크에서 MLP-LDRU를 평가하였으며, 최대 학습 길이(Max training length)를 증가시킬 때 18개 태스크에서 100%의 분포 외(Out-of-distribution) 정확도를 달성하였고, 나머지 3개 태스크에서도 최소 99.9%의 정확도를 기록하며 유사한 순환 모델 및 어텐션 기반(Attention-based) 모델들을 능가했습니다. 나아가 우리는 MLP-LDRU를 정규 언어를 넘어 ListOps 및 NLP 분류(NLP classification) 벤치마크에서도 평가하였으며, 여기서 경쟁력 있는 성능을 보여주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

로그 깊이 순환 유닛(Log-Depth Recurrent Units)을 이용한 길이 일반화

요약

핵심 포인트

댓글