인과 언어 모델링(CLM) 우회 경로가 인코더 연속 사전 학습을 개선한다
요약
본 논문은 인코더를 새로운 도메인에 적응시킬 때, 표준적인 마스크드 언어 모델링(MLM) 연속 사전 학습 방식 대신 '인과 언어 모델링(CLM) 우회 경로'를 사용하는 것이 다운스트림 성능을 향상시킨다는 것을 보여줍니다. 특히 생의학 텍스트 도메인에서 ModernBERT와 같은 인코더에 이 방법을 적용했을 때, MLM 기준선 대비 상당한 성능 개선(+1.2-2.8pp 등)을 달성했습니다. 연구 결과는 CLM 단계가 낮은 트랜스포머 레이어(0~7)에 큰 영향을 미치며, 중간 레이어를 고정하는 것이 이러한 이점을 유지하는 데 중요함을 밝혀냈습니다.
핵심 포인트
- 인코더 도메인 적응 시, MLM 연속 사전 학습보다 CLM 우회 경로가 더 높은 다운스트림 성능을 제공한다.
- 생의학 텍스트와 같은 특정 도메인에서 이 방법은 기존 MLM 방식 대비 상당한 성능 향상(예: +1.2-2.8pp)을 입증했다.
- 성능 개선 효과는 모델의 낮은 트랜스포머 레이어에 CLM이 큰 영향을 미치기 때문이며, 중간 레이어를 고정할 때 이점을 유지한다.
- 제안된 방법론과 학습된 생의학 인코더(ModernCamemBERT-bio, ModernBERT-bio)를 공개하여 연구 커뮤니티에 기여했다.
인코더를 새로운 도메인에 적응시킬 때의 표준 접근 방식은 마스크드 언어 모델링(MLM)으로 계속 훈련하는 것입니다. 우리는 일시적으로 인과 언어 모델링(CLM)으로 전환한 다음 짧은 MLM 감쇠(decay)를 거치는 것이 다운스트림 성능을 향상시킨다는 것을 보여줍니다. ModernBERT를 사용한 생의학 텍스트에서, 이 CLM 우회 경로는 동일한 데이터와 컴퓨팅 자원으로 훈련된 8개의 프랑스어 및 11개의 영어 생의학 태스크에 걸쳐 MLM 기준선보다 각각 +1.2-2.8pp, +0.3-0.8pp 더 높은 성능을 보였습니다 (모델 크기에 따라 다름). 우리는 이러한 이득의 이유를 조사했습니다. 우리는 CLM의 밀집된 감독(dense supervision)이 낮은 트랜스포머 레이어(0~7)에 MLM보다 훨씬 큰 영향을 미친다는 것을 발견했습니다. CLM 동안 낮은 레이어를 고정하면 다운스트림 이점이 사라지고, 중간 레이어를 고정할 때는 그 이점을 유지합니다. 표현적 변화는 MLM 감쇠 단계에서도 지속되며, 심지어 길이가 CLM 단계와 일치하더라도 마찬가지이며, 모델 용량에 따라 확장됩니다. 우리는 Base 및 Large 크기의 최신 생의학 인코더로 ModernCamemBERT-bio와 ModernBERT-bio를 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기