인도네시아어 인스타그램 댓글의 사이버 괴롭힘 탐지를 위한 AutoML 및 BiLSTM 모델 비교 분석
요약
본 연구는 인도네시아어 인스타그램 댓글에서 사이버 괴롭힘을 탐지하기 위해 다양한 머신러닝 및 딥러닝 모델의 성능을 비교 분석했습니다. 650개의 균형 잡힌 데이터셋과 슬랭 정규화, 스템밍 등을 포함한 도메인 특화 전처리 파이프라인을 적용하여 Naive Bayes, Logistic Regression 등 전통적인 ML 모델과 BiLSTM with Attention 같은 딥러닝 모델의 성능을 평가했습니다. 그 결과, 로지스틱 회귀가 머신러닝 중 최고 성능을 보였고, BiLSTM with Attention은 가장 강력한 전반적 성능을 달성하여, 도메인 특화 전처리와 각 접근법의 장점을 입증했습니다.
핵심 포인트
- 사이버 괴롭힘 탐지 모델 구축 시 인도네시아어와 같은 비공식 언어에 맞는 맞춤형 전처리(슬랭 정규화, 스템밍 등)가 필수적이다.
- 전통적인 머신러닝 모델 중에서는 로지스틱 회귀(Logistic Regression)가 가장 우수한 성능을 보였다.
- 딥러닝 모델 중에서는 어텐션 메커니즘이 적용된 BiLSTM (BiLSTM with Attention)이 전반적으로 가장 강력한 문맥적 패턴 포착 능력을 보여주었다.
- 리소스 제약 환경에서도 로지스틱 회귀와 같은 머신러닝 모델이 여전히 경쟁력 있는 대안임을 시사한다.
본 연구는 인도네시아어 인스타그램 댓글에 대한 사이버 괴롭힘 탐지를 위한 기계 학습 및 딥러닝 접근법을 비교합니다. 'Bullying(괴롭힘)'과 'Non-Bullying(비괴롭힘)'로 라벨링된 650 개의 균형 잡힌 데이터셋을 사용하여, TF-IDF 특징을 활용한 Naive Bayes, Logistic Regression, Support Vector Machine 과 BiLSTM, Bahdanau Attention 을 적용한 BiLSTM 의 성능을 평가합니다. 비공식적인 인도네시아어 텍스트에 맞춘 전처리 파이프라인이 적용되며, 이는 슬랭 정규화, 불용어 제거, 스템밍을 포함합니다. 결과는 기계 학습 모델 중 Logistic Regression 이 가장 우수한 성능을 보였으며, 딥러닝 모델 중 BiLSTM with Attention 이 전반적으로 가장 강력한 성능을 달성했습니다. 본 연구의 발견은 도메인 특화 전처리의 가치를 강조하고, 딥러링이 문맥적 패턴을 더 효과적으로 포착할 수 있음에도 불구하고 기계 학습이 리소스 제약이 있는 배포 환경에서도 경쟁력 있는 옵션임을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기