Sentiment140 데이터셋 기반 트윗 감성 분류: 머신러닝과 딥러닝 모델 비교 분석
요약
본 연구는 Sentiment140 데이터셋을 활용하여 트윗 감성 분류 성능을 로지스틱 회귀와 BiLSTM 모델로 비교 분석했습니다. 실험 결과, 전통적인 머신러닝인 로지스틱 회귀가 73.5%의 정확도를 기록하며 딥러닝 모델(BiLSTM, 69.17%)보다 우수한 성능을 보였습니다. 이 연구는 중간 규모 비정형 텍스트 데이터에서는 고전적 ML이 복잡한 딥러닝 접근법을 능가할 수 있음을 입증하고, 최종적으로 Streamlit 기반 웹 앱으로 모델을 배포하는 과정을 제시합니다.
핵심 포인트
- 소셜 미디어 감성 분석의 중요성이 증가함에 따라 자동화 시스템 개발이 필수적입니다.
- Sentiment140 데이터셋을 사용하여 로지스틱 회귀(TF-IDF 기반)와 BiLSTM 모델을 비교했습니다.
- 중간 규모 텍스트 데이터에서는 고전적인 머신러닝(로지스틱 회귀)이 딥러닝보다 더 높은 정확도를 보일 수 있습니다.
- 모델의 실용적 활용을 위해 Streamlit과 Hugging Face Spaces를 이용한 웹 애플리케이션 배포가 가능합니다.
소셜 미디어의 지수적 성장으로 인해 실시간으로 비정형 공중 감성을 분석할 수 있는 자동화 시스템에 대한 시급한 수요가 발생했습니다. 본 연구는 Sentiment140 데이터셋의 10,000 개 트윗 하위집합에서 전통적인 TF-IDF 특징을 사용하는 로지스틱 회귀 (Logistic Regression) 모델과 딥러닝 BiLSTM (Bidirectional Long Short-Term Memory) 아키텍처를 비교 분석했습니다. 실험 결과는 로지스틱 회귀가 73.5% 의 정확도를 달성하고, BiLSTM 은 69.17% 를 기록하며 우위임을 보여주었습니다. 또한 딥러닝 모델은 경미한 과적합 (overfitting) 을 보였습니다. 이러한 발견들은 중간 규모의 비정형 텍스트 데이터의 경우 고전적인 머신러닝이 강력한 특징 추출을 통해 더 복잡한 딥러닝 접근법을 능가할 수 있음을 시사합니다. 마지막으로, 훈련된 모델은 Streamlit 을 사용하여 인터랙티브 웹 애플리케이션에 통합되어 Hugging Face Spaces 에 배포되어 공개적으로 이용 가능합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기