본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 28. 13:21

마스크 언어 모델링 (Masked Language Modeling)을 위한 엔트로피 인식 마스킹 (Entropy-aware Masking)

요약

본 연구는 MLM 학습 시 무작위 마스킹 대신 엔트로피 분포를 활용한 토큰 마스킹 전략을 제안합니다. 불확실성이 높은 토큰을 타겟팅하여 학습 효율을 높이며, GLUE 벤치마크에서 성능 향상을 입증했습니다.

핵심 포인트

  • 엔트로피 기반의 토큰 마스킹 전략 제안
  • 정보량이 많은 불확실한 토큰을 타겟팅하여 학습 효능 증대
  • 외부 참조 모델 없는 새로운 셀프 마스킹 방식 도입
  • GLUE 점수에서 베이스라인 대비 평균 5% 성능 향상
  • 지식 증류와 결합 시 최상의 종합 성과 달성

마스크 언어 모델링 (Masked Language Modeling, MLM)은 인코더 기반 언어 모델 (encoder-based language models)을 학습시키기 위한 표준적인 사전 학습 (pretraining) 목표가 되었습니다. 이 방식에서는 입력값의 특정 토큰 (tokens)들이 마스킹 (masked)되며, 모델은 주변 문맥 (context)을 사용하여 이들을 예측하는 법을 배웁니다. 이 과정은 모델이 언어의 통사적 (syntactic) 및 의미적 (semantic) 특성을 모두 포착할 수 있게 합니다. 전통적으로 마스킹을 위해 선택되는 토큰들은 무작위로 선정되는데, 이는 항상 가장 효과적인 학습 신호 (learning signals)를 생성하지 못할 수도 있습니다. 본 연구에서는 엔트로피 분포 (entropy distribution)에 기반한 토큰 마스킹 전략을 조사합니다. 우리는 토큰 예측에 대한 모델의 엔트로피 (entropy)를 사용하여 어떤 토큰이 마스킹되어야 하는지를 식별합니다. 이 방법은 학습 효능 (training efficacy)을 높이기 위해 더 많은 정보가 있고 불확실한 토큰들을 타겟팅하는 것을 목표로 합니다. 또한, 우리는 외부 참조 모델 (external reference model)에 의존하지 않고 학습 효율성을 높이는 새로운 셀프 마스킹 (self-masking) 접근 방식을 제안합니다. 실험 결과, 우리의 방법은 베이스라인 (baseline)과 비교하여 GLUE 점수에서 평균 5%의 성능 향상을 달성함을 입증했습니다. 나아가, 지식 증류 (knowledge distillation)를 엔트로피 마스킹 (entropy masking)과 결합하는 실험을 진행하였으며, 그 결과 최상의 종합적인 성과를 얻었습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0