arXiv논문2026. 05. 28. 13:21

마스크 언어 모델링 (Masked Language Modeling)을 위한 엔트로피 인식 마스킹 (Entropy-aware Masking)

요약

본 연구는 MLM 학습 시 무작위 마스킹 대신 엔트로피 분포를 활용한 토큰 마스킹 전략을 제안합니다. 불확실성이 높은 토큰을 타겟팅하여 학습 효율을 높이며, GLUE 벤치마크에서 성능 향상을 입증했습니다.

핵심 포인트

엔트로피 기반의 토큰 마스킹 전략 제안
정보량이 많은 불확실한 토큰을 타겟팅하여 학습 효능 증대
외부 참조 모델 없는 새로운 셀프 마스킹 방식 도입
GLUE 점수에서 베이스라인 대비 평균 5% 성능 향상
지식 증류와 결합 시 최상의 종합 성과 달성

마스크 언어 모델링 (Masked Language Modeling, MLM)은 인코더 기반 언어 모델 (encoder-based language models)을 학습시키기 위한 표준적인 사전 학습 (pretraining) 목표가 되었습니다. 이 방식에서는 입력값의 특정 토큰 (tokens)들이 마스킹 (masked)되며, 모델은 주변 문맥 (context)을 사용하여 이들을 예측하는 법을 배웁니다. 이 과정은 모델이 언어의 통사적 (syntactic) 및 의미적 (semantic) 특성을 모두 포착할 수 있게 합니다. 전통적으로 마스킹을 위해 선택되는 토큰들은 무작위로 선정되는데, 이는 항상 가장 효과적인 학습 신호 (learning signals)를 생성하지 못할 수도 있습니다. 본 연구에서는 엔트로피 분포 (entropy distribution)에 기반한 토큰 마스킹 전략을 조사합니다. 우리는 토큰 예측에 대한 모델의 엔트로피 (entropy)를 사용하여 어떤 토큰이 마스킹되어야 하는지를 식별합니다. 이 방법은 학습 효능 (training efficacy)을 높이기 위해 더 많은 정보가 있고 불확실한 토큰들을 타겟팅하는 것을 목표로 합니다. 또한, 우리는 외부 참조 모델 (external reference model)에 의존하지 않고 학습 효율성을 높이는 새로운 셀프 마스킹 (self-masking) 접근 방식을 제안합니다. 실험 결과, 우리의 방법은 베이스라인 (baseline)과 비교하여 GLUE 점수에서 평균 5%의 성능 향상을 달성함을 입증했습니다. 나아가, 지식 증류 (knowledge distillation)를 엔트로피 마스킹 (entropy masking)과 결합하는 실험을 진행하였으며, 그 결과 최상의 종합적인 성과를 얻었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

마스크 언어 모델링 (Masked Language Modeling)을 위한 엔트로피 인식 마스킹 (Entropy-aware Masking)

요약

핵심 포인트

댓글