arXiv논문2026. 06. 18. 11:46

신경망 희소 검색 (Neural Sparse Retrieval)을 위한 MLM-Head 재스케일링 (Rescaling)

요약

SPLADE와 같은 희소 검색 모델에서 강력한 백본 인코더를 사용할 때 발생하는 학습 불안정성 문제를 MLM-head의 스케일 불일치로 규명했습니다. 이를 해결하기 위해 모델 구조 변경 없이 MLM-head를 재스케일링하는 간단한 보정 방법을 제안하여 학습 안정성과 검색 성능을 개선했습니다.

핵심 포인트

강력한 백본 사용 시 MLM-head의 큰 L2 노름이 학습 붕괴 유발
MLM-head 스케일 불일치가 희소 활성화 및 매칭 점수 왜곡의 원인
초기화 시점에 상수 인자로 재스케일링하는 zero-cost 보정법 제안
ModernBERT 등 노름이 큰 모델에서도 안정적인 학습 및 성능 향상 확인

SPLADE와 같은 학습된 희소 검색 (Learned sparse retrieval, LSR) 모델은 전통적으로 BERT 스타일의 마스크 언어 모델 (Masked Language Models, MLM)을 백본 인코더 (backbone encoders)로 사용해 왔습니다. BERT를 더 강력한 사전 학습된 인코더 (pretrained encoders)로 교체하면 검색 효율성이 향상될 것이라는 기대는 자연스럽습니다. 그러나 우리는 표준적인 SPLADE 학습 레시피 (training recipes) 하에서, MLM-head의 L2 노름 (L2 norms)이 큰 백본들은 성능 저하를 겪거나 심지어 학습 붕괴 (training collapse)가 발생할 수 있음을 발견했습니다. 우리는 이러한 실패의 원인을 MLM-head의 스케일 불일치 (scale mismatch)로 식별했습니다. SPLADE는 MLM-head의 출력을 직접 사용하여 희소 어휘 표현 (sparse lexical representations)을 구축하며, 쿼리-문서 관련성 (query-document relevance)은 이러한 표현들에 대한 비정규화된 내적 (unnormalized dot product)을 통해 계산됩니다. 결과적으로, 팽창된 MLM-head 스케일은 희소 활성화 (sparse activations)를 증폭시키고, 매칭 점수 (matching scores)를 왜곡하며, 일반적인 학습 설정 하에서 대조 학습 (contrastive training)을 불안정하게 만들 수 있습니다. 이 문제를 해결하기 위해, 우리는 SPLADE 학습 전에 MLM-head 프로젝션 (projection)을 상수 인자 (constant factor)로 재스케일링하는 간단한 초기화 시점 보정 (initialization-time correction) 방법을 도입합니다. 이 비용이 들지 않는 (zero-cost) 조정은 모델 아키텍처 (model architecture)나 학습 목적 함수 (training objective)를 수정하지 않고도 학습 안정성을 향상시킵니다. 도메인 내 (in-domain) 및 도메인 외 (out-of-domain) 검색 벤치마크 모두에서, 이 간단한 보정은 ModernBERT 및 Ettin과 같이 노름이 큰 백본들을 실질적으로 개선하여, 불안정했던 학습 과정을 경쟁력 있는 희소 검색기 (sparse retrievers)로 탈바꿈시킵니다. 여러 설정에서 보정된 모델들은 클래식한 BERT-SPLADE 베이스라인 (baseline)과 대등하거나 이를 능가합니다. 이러한 발견은 사전 학습된 인코더를 LSR에 적응시키는 데 있어 병목 현상이 인코더의 용량 (capacity) 때문만이 아니라, 희소 어휘 표현을 구축하는 데 사용되는 MLM-head 스케일의 보정 (calibration) 문제임을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

신경망 희소 검색 (Neural Sparse Retrieval)을 위한 MLM-Head 재스케일링 (Rescaling)

요약

핵심 포인트

댓글