깨끗한 텍스트를 넘어: 노이즈가 있는 텍스트에서의 뱅골어 이벤트 탐지를 위한 인코더(Encoder) 및 디코더(Decoder) 강건성 평가

이벤트 탐지 (Event detection, ED) 시스템은 일반적으로 정제된 깨끗한 텍스트를 바탕으로 평가되며, 특히 뱅골어(Bangla)와 같은 저자원 언어(low-resource languages)의 경우 실제 환경의 노이즈에 대한 강건성(robustness)은 거의 탐구되지 않은 상태로 남아 있습니다. 본 연구에서는 일반화된 뱅골어 뉴스 이벤트 온톨로지(ontology)와 함께, 깨끗한 뉴스 텍스트, 실제 자동 음성 인식 (Automatic Speech Recognition, ASR) 전사 데이터, 그리고 철자가 손상된 텍스트를 아우르는 40개의 이벤트 하위 유형에 걸친 9,979개의 주석 처리된 문장으로 구성된 벤치마크를 소개합니다. 우리는 미세 조정된 인코더 전용 모델 (BanglaBERT 및 XLM-R)과 지시어 튜닝된(instruction-tuned) 디코더 전용 대규모 언어 모델 (Llama 3 및 Gemma 3)을 체계적으로 평가합니다. 연구 결과, 명확한 아키텍처 간의 트레이드오프(trade-off)가 드러났습니다. 인코더 모델은 깨끗한 텍스트에서는 더 높은 성능을 달성하지만 노이즈 환경에서는 성능이 크게 저하되는 반면, 디코더 전용 LLM은 특히 이벤트 트리거(event triggers)가 손상되었을 때 현저하게 더 높은 강건성을 보였습니다. 나아가, 지시어 튜닝 과정에서 임베딩 주석 가이드라인을 포함하는 것이 노이즈가 있는 텍스트에서 더 높은 성능 기준점(baseline)을 설정하지만, 다양한 노이즈 조건에 따라 성능 저하 감소 폭이 일관되지 않음을 보여줍니다. 마지막으로, 모델 스케일링(scaling)은 디코더 전용 LLM의 강건성을 일관되게 향상시키는 반면, 깨끗한 데이터와 노이즈가 있는 데이터를 결합하여 학습하는 것은 인코더 아키텍처에 불균형적으로 큰 이득을 주는 효과적인 정규화(regularization) 전략으로 작용하여 강건성 격차를 크게 좁히는 역할을 합니다.

Insights

깨끗한 텍스트를 넘어: 노이즈가 있는 텍스트에서의 뱅골어 이벤트 탐지를 위한 인코더(Encoder) 및 디코더(Decoder) 강건성 평가

요약

핵심 포인트

댓글

또 다른 암호화폐 기업, Russell 1000 지수 편입

J.P. Morgan, 스트레스 테스트 이후 500억 달러 규모의 자사주 매입 발표

Kilo CLI 실전 — roll-call로 500개 이상의 모델을 병렬 헬스 체크하기

아무도 경고해주지 않는 부분: 프로덕션 환경에서 AI 에이전트 운영하기

J.P. Morgan, 스트레스 테스트 이후 500억 달러 규모의 자사주 매입 발표

Kilo CLI 실전 — roll-call로 500개 이상의 모델을 병렬 헬스 체크하기

아무도 경고해주지 않는 부분: 프로덕션 환경에서 AI 에이전트 운영하기