깨끗한 텍스트를 넘어: 노이즈가 있는 텍스트에서의 뱅골어 이벤트 탐지를 위한 인코더(Encoder) 및 디코더(Decoder) 강건성 평가
요약
저자원 언어인 뱅골어의 노이즈 섞인 텍스트 환경에서 이벤트 탐지 모델의 강건성을 평가한 연구입니다. 인코더 모델과 디코더 LLM 간의 성능 트레이드오프를 분석하고, 데이터 결합 학습을 통한 강건성 향상 전략을 제시합니다.
핵심 포인트
- 뱅골어 뉴스 이벤트 탐지를 위한 새로운 벤치마크 데이터셋 소개
- 인코더 모델은 깨끗한 텍스트에 강하나 노이즈에 취약함
- 디코더 LLM은 노이즈가 있는 텍스트에서 더 높은 강건성 보유
- 데이터 결합 학습이 인코더 모델의 강건성을 높이는 효과적인 전략임
이벤트 탐지 (Event detection, ED) 시스템은 일반적으로 정제된 깨끗한 텍스트를 바탕으로 평가되며, 특히 뱅골어(Bangla)와 같은 저자원 언어(low-resource languages)의 경우 실제 환경의 노이즈에 대한 강건성(robustness)은 거의 탐구되지 않은 상태로 남아 있습니다. 본 연구에서는 일반화된 뱅골어 뉴스 이벤트 온톨로지(ontology)와 함께, 깨끗한 뉴스 텍스트, 실제 자동 음성 인식 (Automatic Speech Recognition, ASR) 전사 데이터, 그리고 철자가 손상된 텍스트를 아우르는 40개의 이벤트 하위 유형에 걸친 9,979개의 주석 처리된 문장으로 구성된 벤치마크를 소개합니다. 우리는 미세 조정된 인코더 전용 모델 (BanglaBERT 및 XLM-R)과 지시어 튜닝된(instruction-tuned) 디코더 전용 대규모 언어 모델 (Llama 3 및 Gemma 3)을 체계적으로 평가합니다. 연구 결과, 명확한 아키텍처 간의 트레이드오프(trade-off)가 드러났습니다. 인코더 모델은 깨끗한 텍스트에서는 더 높은 성능을 달성하지만 노이즈 환경에서는 성능이 크게 저하되는 반면, 디코더 전용 LLM은 특히 이벤트 트리거(event triggers)가 손상되었을 때 현저하게 더 높은 강건성을 보였습니다. 나아가, 지시어 튜닝 과정에서 임베딩 주석 가이드라인을 포함하는 것이 노이즈가 있는 텍스트에서 더 높은 성능 기준점(baseline)을 설정하지만, 다양한 노이즈 조건에 따라 성능 저하 감소 폭이 일관되지 않음을 보여줍니다. 마지막으로, 모델 스케일링(scaling)은 디코더 전용 LLM의 강건성을 일관되게 향상시키는 반면, 깨끗한 데이터와 노이즈가 있는 데이터를 결합하여 학습하는 것은 인코더 아키텍처에 불균형적으로 큰 이득을 주는 효과적인 정규화(regularization) 전략으로 작용하여 강건성 격차를 크게 좁히는 역할을 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기