IMDb 영화 리뷰 감성 분류를 위한 고전 머신러닝 및 딥러닝 접근 방식 비교 분석

본 논문은 IMDb 영화 리뷰 데이터셋을 이용한 감성 분류(sentiment classification)에 대한 고전 머신러닝(classical machine learning) 방법과 딥러닝(deep learning) 방법을 비교 연구합니다. 머신러닝 파이프라인에서는 TF-IDF 피처를 사용하고 PyCaret AutoML을 활용하여 로지스틱 회귀(Logistic Regression), 나이브 베이즈(Naïve Bayes), 서포트 벡터 머신(Support Vector Machine, SVM)을 평가했습니다. 반면 딥러닝 파이프라인은 BiLSTM과 어텐션 메커니즘이 적용된 BiLSTM을 구현했습니다. 실험 결과에 따르면, 고전 머신러닝 방식, 특히 SVM이 정확도 0.8530으로 가장 우수한 성능을 보여 본 연구의 딥러닝 모델들보다 뛰어났습니다. BiLSTM with Attention 모델은 표준 BiLSTM 대비 개선되어 정확도 0.706에 도달했으며, 이는 더 나은 문맥적 모델링(contextual modeling)을 나타냅니다. 본 논문은 딥러닝이 순차적 의존성(sequential dependencies)을 포착할 수 있지만, TF-IDF와 같은 효과적인 피처 엔지니어링과 결합된 고전 머신러닝이 특히 데이터 및 컴퓨팅 자원이 제한적일 때 강력한 기준선(strong baseline)으로 남아있음을 결론짓습니다.

Insights

IMDb 영화 리뷰 감성 분류를 위한 고전 머신러닝 및 딥러닝 접근 방식 비교 분석

요약

핵심 포인트

댓글

Digital Realty, 42.5억~47.5억 달러 규모의 자본 지출 (Capex) 계획을 바탕으로 프로모트를 제외한 2026년 주당 핵심

무작위 설계를 통한 KV-Cache 제거를 위한 오류 인증 (Error Certificates)

GS-Agent: 생성형 시뮬레이션을 통한 4D 물리 세계 구축

에이전트적 컨텍스트 관리 (Agentic Context Management): 에이전트의 메모리와 비용 문제를 라이프사이클 및 아키텍처 문제로

Digital Realty, 42.5억~47.5억 달러 규모의 자본 지출 (Capex) 계획을 바탕으로 프로모트를 제외한 2026년 주당 핵심

무작위 설계를 통한 KV-Cache 제거를 위한 오류 인증 (Error Certificates)

GS-Agent: 생성형 시뮬레이션을 통한 4D 물리 세계 구축

에이전트적 컨텍스트 관리 (Agentic Context Management): 에이전트의 메모리와 비용 문제를 라이프사이클 및 아키텍처 문제로