본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 12. 10:57

IMDb 영화 리뷰 감성 분류를 위한 고전 머신러닝 및 딥러닝 접근 방식 비교 분석

요약

본 논문은 IMDb 영화 리뷰 데이터를 활용하여 감성 분류에 대한 고전 머신러닝과 딥러닝 접근 방식을 비교 분석했습니다. 연구 결과, TF-IDF 피처를 사용한 SVM 같은 고전 머신러닝 모델이 높은 정확도를 보여 딥러닝 모델보다 우수한 성능을 기록했습니다. 다만, BiLSTM with Attention 모델은 표준 BiLSTM 대비 개선된 문맥적 이해 능력을 입증하며, 효과적인 피처 엔지니어링과 결합된 전통적인 ML 방법의 강력한 유효성을 제시합니다.

핵심 포인트

  • 감성 분류 비교 분석: IMDb 리뷰 데이터셋을 사용하여 고전 머신러닝(LR, NB, SVM)과 딥러닝(BiLSTM) 모델을 비교했습니다.
  • SVM의 우수성 입증: TF-IDF 피처를 사용한 SVM이 높은 정확도(0.8530)로 가장 좋은 성능을 보여주었습니다.
  • Attention 메커니즘의 효과: BiLSTM에 Attention을 적용했을 때 표준 모델 대비 개선된 문맥적 모델링 능력을 보였습니다.
  • ML vs DL 결론: 데이터 및 자원 제약 환경에서, 효과적인 피처 엔지니어링과 결합된 고전 ML이 여전히 강력한 기준선(strong baseline)임을 시사합니다.

본 논문은 IMDb 영화 리뷰 데이터셋을 이용한 감성 분류(sentiment classification)에 대한 고전 머신러닝(classical machine learning) 방법과 딥러닝(deep learning) 방법을 비교 연구합니다. 머신러닝 파이프라인에서는 TF-IDF 피처를 사용하고 PyCaret AutoML을 활용하여 로지스틱 회귀(Logistic Regression), 나이브 베이즈(Naïve Bayes), 서포트 벡터 머신(Support Vector Machine, SVM)을 평가했습니다. 반면 딥러닝 파이프라인은 BiLSTM과 어텐션 메커니즘이 적용된 BiLSTM을 구현했습니다. 실험 결과에 따르면, 고전 머신러닝 방식, 특히 SVM이 정확도 0.8530으로 가장 우수한 성능을 보여 본 연구의 딥러닝 모델들보다 뛰어났습니다. BiLSTM with Attention 모델은 표준 BiLSTM 대비 개선되어 정확도 0.706에 도달했으며, 이는 더 나은 문맥적 모델링(contextual modeling)을 나타냅니다. 본 논문은 딥러닝이 순차적 의존성(sequential dependencies)을 포착할 수 있지만, TF-IDF와 같은 효과적인 피처 엔지니어링과 결합된 고전 머신러닝이 특히 데이터 및 컴퓨팅 자원이 제한적일 때 강력한 기준선(strong baseline)으로 남아있음을 결론짓습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0