arXiv논문2026. 05. 14. 13:30

서브워드 정규화(Subword Regularization)를 이용한 언어 모델 사전 학습: 저자원 NLP에서의 BPE Dropout에 관한

요약

본 연구는 저자원 NLP 환경에서 사전 학습 단계에 BPE dropout과 같은 서브워드 정규화(Subword Regularization)를 적용하는 것이 성능 향상에 미치는 영향을 조사했습니다. 여러 언어와 태스크에 걸쳐, 확률적 토큰화가 사전 학습 및 파인튜닝 모두에 사용될 때 가장 좋은 결과를 보였습니다. 특히 BPE dropout의 이점은 한쪽 데이터(사전 학습 또는 파인튜닝)만 부족할 때 두드러지며, 이는 모델이 희귀 단어에 대한 더 나은 구성적 표현을 학습하기 때문입니다.

핵심 포인트

BPE dropout과 같은 서브워드 정규화는 일반적으로 파인튜닝 단계에서 사용되지만, 사전 학습 중 적용하는 것이 저자원 환경의 다운스트림 성능 향상에 효과적일 수 있다.
확률적 토큰화(Stochastic Tokenization)를 사전 학습 및 파인튜닝 모두에 적용할 때 가장 좋은 결과를 얻었으며, 이는 세그멘테이션 불일치 문제를 완화한다.
BPE dropout의 이점은 특히 사전 학습 또는 파인튜닝 데이터 중 하나가 부족한 저자원 환경에서 두드러지게 나타난다.
모델이 더 잘 정렬된 세그멘테이션에 노출되는 것이 다운스트림 성능 향상에 기여할 수 있으며, 이는 사전 학습 단계의 확률적 토큰화 덕분일 수 있다.

BPE dropout과 같은 서브워드 정규화(Subword Regularization) 방법들은 일반적으로 파인튜닝 (Fine-tuning) 단계에서만 적용되는 반면, 사전 학습 (Pretraining)은 보통 결정론적 토큰화 (Deterministic Tokenization)를 통해 수행됩니다. 이는 사전 학습과 파인튜닝 사이에 잠재적인 세그멘테이션 불일치 (Segmentation mismatch)를 야기합니다. 본 연구에서는 사전 학습 중에 BPE dropout을 적용하는 것이 저자원 NLP (Low-resource NLP) 환경에서 다운스트림 성능 (Downstream performance)을 향상시키는지 조사합니다. 우리는 영어, 독일어, 프랑스어, 스페인어, 키스와힐리어 (Kiswahili), 그리고 이시코사어 (isiXhosa)의 다운샘플링된 하위 집합을 사용하여 단일 언어 및 이중 언어 BERT 모델을 학습시키고, XNLI, PAWS-X, PAN-X, MasakhaNER 2.0에서 이를 평가합니다. 여러 태스크에 걸쳐, 일반적으로 확률적 토큰화 (Stochastic Tokenization)가 사전 학습과 파인튜닝 모두에 적용되었을 때 가장 좋은 결과를 얻었으며, 반면 BPE dropout을 파인튜닝 단계에서만 적용할 경우 데이터가 적은 설정에서는 결정론적 토큰화보다 성능이 낮을 수 있습니다. 이러한 단점은 파인튜닝 데이터가 증가함에 따라 줄어드는 반면, 사전 학습 단계에서의 BPE dropout의 이점은 사전 학습 또는 파인튜닝 데이터 중 하나라도 부족할 때 가장 크게 나타납니다. BPE dropout의 이점은 흔히 더 나은 구성적 표현 (Compositional representations), 특히 희귀 단어에 대한 표현력 덕분인 것으로 여겨집니다. 이를 검증하기 위해 우리는 BPE dropout 하에서의 형태소 경계 정렬 (Morphological boundary alignment)을 측정하였으며, 기대 정렬 (Expected alignment)에서 완만한 개선만을 발견했고, 더 잘 정렬된 세그멘테이션 (Segmentations)은 여전히 드물다는 것을 확인했습니다. 이는 파인튜닝만으로는 그러한 세그멘테이션에 노출되는 정도가 제한적일 수 있는 반면, 사전 학습 중의 확률적 토큰화는 모델을 보다 일관되게 해당 세그멘테이션에 노출시킨다는 것을 시사합니다. 나아가 우리는 파인튜닝 중에 형태소적으로 정렬된 세그멘테이션을 선택적으로 도입하는 것이 주로 BPE dropout 없이 사전 학습된 모델의 성능을 향상시킨다는 것을 보여줍니다. 종합적으로, 이러한 발견은 더 잘 정렬된 세그멘테이션에 대한 노출이 사전 학습 중 BPE dropout을 적용했을 때 얻는 다운스트림 이점에 기여할 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

서브워드 정규화(Subword Regularization)를 이용한 언어 모델 사전 학습: 저자원 NLP에서의 BPE Dropout에 관한

요약

핵심 포인트

댓글