역사적 텍스트의 개체명 인식 (NER)을 위한 시간적 융합 전략 연구
요약
역사적 텍스트의 개체명 인식(NER) 성능을 높이기 위해 시간적 메타데이터를 모델에 임베딩하는 다양한 융합 전략을 연구했습니다. 실험 결과, 후기 융합(late fusion) 방식이 초기 및 노이즈가 많은 시기의 데이터에서도 가장 견고한 성능을 보였습니다.
핵심 포인트
- 역사적 텍스트의 시간적 변화에 따른 NER 과제 분석
- 절대적 및 상대적 시간 표현을 활용한 메타데이터 임베딩
- 크로스 어텐션, 어댑터, 연결 등 다양한 융합 메커니즘 실험
- 후기 융합(late fusion) 전략의 우수한 일반화 성능 확인
시간적 변화는 역사적 텍스트의 개체명 인식 (Named Entity Recognition, NER)에 있어 독특한 과제를 제기하며, 여기서 개체들은 시간에 따라 표면 형태 (surface form)와 중요도 (salience)가 변화합니다. 언어 모델 (Language Models, LMs)이 다양한 자연어 처리 (NLP) 작업에서 진전을 이루었지만, 시간성에 대해 추론하는 능력, 특히 통시적 (diachronic) 맥락에서의 능력은 여전히 제한적이거나 최소한 의문스러운 상태입니다. 본 논문에서는 다양한 경량 융합 전략을 사용하여 시간적 메타데이터를 NER 모델에 구조적으로 임베딩 (embedding)하는 방법을 체계적으로 연구합니다. 우리는 절대적 (absolute) 및 상대적 (relative) 시간 표현을 모두 실험하였으며, 이를 크로스 어텐션 (cross-attention), 어댑터 (adapters), 연결 (concatenation)과 같은 초기 또는 후기 융합 (early or late fusion) 메커니즘을 통해 트랜스포머 (Transformer) 기반 아키텍처에 주입하였습니다. 프랑스어 및 독일어 역사적 데이터셋에 대한 평가 결과, 후기 융합 (late fusion) 전략이 특히 초기 및 노이즈가 많은 시기에서 더 견고하고 시간적으로 일반화 가능한 성능을 보여준다는 것을 확인했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기