인도네시아 제품 리뷰에 대한 감정 분석을 위한 로지스틱 회귀, SVM, LightGBM 과 BiLSTM(Attention) 벤치마킹
요약
본 연구는 인도네시아어 제품 리뷰에 대한 이진 감정 분류를 위해 머신러닝(ML)과 딥러닝(DL) 접근법을 비교하는 포괄적인 벤치마킹을 수행했습니다. ML 모델로는 로지스틱 회귀, SVM, LightGBM이 사용되었고, DL 모델로는 Attention 메커니즘을 갖춘 BiLSTM이 활용되었습니다. 그 결과, 적절한 전처리와 특징 추출이 적용된 전통적인 ML 알고리즘(로지스틱 회귀)이 딥러닝 아키텍처와 매우 근접하거나 때로는 더 나은 성능을 보이면서도 계산 효율성 측면에서 이점을 제공함을 입증했습니다.
핵심 포인트
- 전통적인 머신러닝 모델(예: 로지스틱 회귀)이 복잡한 딥러닝 아키텍처와 경쟁할 수 있는 높은 성능을 보여준다.
- 적절한 특징 추출 및 전처리 과정을 거치면, ML 모델이 DL 모델에 필적하거나 능가하는 성능을 보일 수 있다.
- ML 접근법은 일반적으로 DL 접근법보다 계산 효율성이 높아 실용적인 이점을 제공한다.
- Attention 메커니즘을 갖춘 BiLSTM과 같은 최신 DL 기술도 여전히 강력한 감정 분석 도구임을 입증했다.
이커머스 플랫폼의 제품 리뷰에 대한 감정 분석은 고객 만족도를 자동으로 이해하고 제품 품질 개선을 모색하는 판매자에게 실행 가능한 통찰력을 제공하는 데 중요한 역할을 합니다. 본 논문에서는 이진 감정 분류를 위한 인도네시아 제품 리뷰에 대해 PyCaret AutoML 프레임워크를 통한 머신러닝 (ML) 접근법과 Attention 메커니즘을 갖춘 Bidirectional Long Short-Term Memory(BiLSTM) 아키텍처를 기반으로 한 딥러닝 (DL) 접근법을 비교하는 포괄적인 벤치마킹 연구를 제시합니다. 데이터셋은 긍정적 리뷰와 부정적 리뷰가 균등하게 분포된 19,728 개의 샘플로 구성됩니다. ML 접근법에서는 로지스틱 회귀 (LR), 선형 커널을 사용한 서포트 벡터 머신 (SVM), 그리고 Light Gradient Boosting Machine(LightGBM) 의 세 가지 주요 알고리즘이 10-폴드 층화 교차 검증 (10-fold stratified cross-validation) 을 통해 평가되었습니다. 로지스틱 회귀는 정확도 97.26% 와 F1-score 97.26% 를 달성하여 가장 우수한 ML 성능을 보였습니다. 3,946 개의 홀드아웃 테스트 샘플에서 평가된 Attention 이 적용된 BiLSTM 모델은 정확도 97.24% 와 F1-score 97.24% 를 달성했습니다. 이러한 비교 결과는 적절한 전처리와 특징 추출이 적용된 전통적인 ML 알고리즘이 고차원 데이터셋에서 더 복잡한 순차적 DL 아키텍처와 밀접하게 경쟁할 수 있으며, 때로는 약간 더 나은 성능을 보일 수 있음을 보여주면서도 동시에 더 높은 계산 효율성을 제공함을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기