arXiv논문2026. 06. 23. 14:12

Randomized YaRN은 긴 문맥 추론을 위한 길이 일반화(Length Generalization)를 개선한다

요약

Randomized YaRN은 무작위 위치 인코딩과 길이 커리큘럼을 결합하여 LLM의 긴 문맥 추론 성능을 개선하는 새로운 학습 방법을 제안합니다. 짧은 문맥 데이터로 학습할 때 모델이 더 넓은 위치 범위에 노출되도록 하여, 학습 시보다 훨씬 긴 문맥에서도 뛰어난 일반화 성능을 보여줍니다.

핵심 포인트

무작위 위치 인코딩을 통해 OOD 위치 표현 노출 유도
길이 커리큘럼을 활용한 점진적 위치 분포 학습
BABILong 및 MRCR 벤치마크에서 우수한 성능 입증
학습 시보다 긴 문맥(128K 등)에서 더 큰 성능 향상 확인

대규모 언어 모델(LLMs)은 일반적으로 짧은 시퀀스(sequences)로 사전 학습(pretrained)된 후, 추가 학습을 통해 더 긴 시퀀스에서도 작동하도록 확장됩니다. 그러나 이러한 LLM들은 여전히 매우 긴 시퀀스로의 추가적인 일반화(generalization)에 어려움을 겪고 있습니다. 우리는 YaRN 기반의 위치 외삽(positional extrapolation)을 무작위 위치 인코딩(randomized positional encoding) 및 길이 커리큘럼(length curriculum)과 결합하여 길이 일반화 성능을 향상시키는 학습 방법인 Randomized YaRN을 제안합니다. 짧은 문맥(short context) 데이터로 학습하는 동안, 토큰에는 더 넓은 위치 범위에서 샘플링된 YaRN 위치 인코딩(YaRN positional encodings)이 할당되어, 모델이 짧은 문맥 입력에서도 분포 외(out-of-distribution, OOD) 위치 표현에 노출되도록 합니다. 우리는 두 가지 도전적인 긴 문맥 추론 벤치마크인 BABILong와 Multi-Round Coreference Resolution (MRCR)에서 Randomized YaRN을 평가합니다. 8K 미만의 문맥 데이터를 사용하여 학습할 때, Randomized YaRN은 16K에서 128K 사이의 문맥 길이에서 추론 성능을 일관되게 향상시키며 표준 미세 조정(standard fine-tuning)보다 뛰어난 성능을 보였으며, 가장 큰 성능 향상은 분포 외(out-of-distribution) 길이가 멀어질수록 나타났습니다. 우리의 결과는 모델을 분포 외(OOD) 위치 분포에 점진적으로 노출시키는 것이 일반화 가능한 긴 문맥 추론을 위한 효과적인 방법(recipe)임을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Randomized YaRN은 긴 문맥 추론을 위한 길이 일반화(Length Generalization)를 개선한다

요약

핵심 포인트

댓글