Randomized YaRN은 긴 문맥 추론을 위한 길이 일반화(Length Generalization)를 개선한다
요약
Randomized YaRN은 무작위 위치 인코딩과 길이 커리큘럼을 결합하여 LLM의 긴 문맥 추론 성능을 개선하는 새로운 학습 방법을 제안합니다. 짧은 문맥 데이터로 학습할 때 모델이 더 넓은 위치 범위에 노출되도록 하여, 학습 시보다 훨씬 긴 문맥에서도 뛰어난 일반화 성능을 보여줍니다.
핵심 포인트
- 무작위 위치 인코딩을 통해 OOD 위치 표현 노출 유도
- 길이 커리큘럼을 활용한 점진적 위치 분포 학습
- BABILong 및 MRCR 벤치마크에서 우수한 성능 입증
- 학습 시보다 긴 문맥(128K 등)에서 더 큰 성능 향상 확인
대규모 언어 모델(LLMs)은 일반적으로 짧은 시퀀스(sequences)로 사전 학습(pretrained)된 후, 추가 학습을 통해 더 긴 시퀀스에서도 작동하도록 확장됩니다. 그러나 이러한 LLM들은 여전히 매우 긴 시퀀스로의 추가적인 일반화(generalization)에 어려움을 겪고 있습니다. 우리는 YaRN 기반의 위치 외삽(positional extrapolation)을 무작위 위치 인코딩(randomized positional encoding) 및 길이 커리큘럼(length curriculum)과 결합하여 길이 일반화 성능을 향상시키는 학습 방법인 Randomized YaRN을 제안합니다. 짧은 문맥(short context) 데이터로 학습하는 동안, 토큰에는 더 넓은 위치 범위에서 샘플링된 YaRN 위치 인코딩(YaRN positional encodings)이 할당되어, 모델이 짧은 문맥 입력에서도 분포 외(out-of-distribution, OOD) 위치 표현에 노출되도록 합니다. 우리는 두 가지 도전적인 긴 문맥 추론 벤치마크인 BABILong와 Multi-Round Coreference Resolution (MRCR)에서 Randomized YaRN을 평가합니다. 8K 미만의 문맥 데이터를 사용하여 학습할 때, Randomized YaRN은 16K에서 128K 사이의 문맥 길이에서 추론 성능을 일관되게 향상시키며 표준 미세 조정(standard fine-tuning)보다 뛰어난 성능을 보였으며, 가장 큰 성능 향상은 분포 외(out-of-distribution) 길이가 멀어질수록 나타났습니다. 우리의 결과는 모델을 분포 외(OOD) 위치 분포에 점진적으로 노출시키는 것이 일반화 가능한 긴 문맥 추론을 위한 효과적인 방법(recipe)임을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기