인도네시아 제품 리뷰 감정 분석을 위한 로지스틱 회귀, SVM, Naive Bayes 및 IndoBERT 파인튜닝 벤치마킹

인도네시아의 전자상거래 플랫폼의 지수적 성장으로 인해 사용자 생성 제품 리뷰의 양이 급증했습니다. 이러한 리뷰의 감정을 분석하는 것은 고객 만족도를 측정하고 대규모로 제품 문제를 식별하는 데 필수적입니다. 본 논문은 토키프다 (Tokopedia) 제품 리뷰 2025 데이터셋을 기반으로 세 가지 감정 분석 클래스 (긍정적, 중립적, 부정적) 를 위한 전통적인 머신러닝 (ML) 접근 방식과 트랜스포머 기반 딥러닝 모델을 벤치마크합니다. 우리는 로지스틱 회귀 (Logistic Regression), 선형 서포트 벡터 머신 (SVM), 다항 Naive Bayes를 결합하여 특징 추출을 수행하고 이를 견고한 베이스라인으로 사용했습니다. 또한, IndoBERT 모델 (indobenchmark/indobert-base-p1) 을 컨텍스트 시퀀스 분류를 위해 파인튜닝했습니다. 전자상거래 피드백에 내재된 심각한 클래스 불균형을 해결하기 위해 우리는 베이스라인 모델에 균등한 클래스 가중치를 적용하고, IndoBERT 학습 루프 내에서 커스텀 가중치 크로스 엔트로피 손실 함수를 설계했습니다. 이는 불균형 학습 연구의 광범위한 동기를 반영합니다. 종합적인 평가 결과 (정확도, Macro F1-score, Weighted F1-score) 는 전통적인 Linear SVC 모델이 실험 환경에서 IndoBERT 모델을 압도적으로 상회함을 보여주었습니다. 정확도는 97.60%로, Macro F1-score는 0.5510으로, 이는 IndoBERT의 88.70%와 0.5088에 비해 높습니다. 상세한 분석은 이 성능 격차가 데이터 샘플링 제도에 따른 불일치에 의해 주로 주도되었음을 시사합니다. 베이스라인은 전체 코퍼스를 사용했지만 트랜스포머는 샘플링된 부분집합에 제한되었습니다. 마지막으로, 우리는 최종 감정 분류 모델을 상호작용적인 Gradio 웹 애플리케이션으로 배포함으로써 파이프라인의 실용적 가능성을 입증했습니다.

Insights

인도네시아 제품 리뷰 감정 분석을 위한 로지스틱 회귀, SVM, Naive Bayes 및 IndoBERT 파인튜닝 벤치마킹

요약

핵심 포인트

댓글

Cursor, 자체 학습 LLM 출시 및 Git 플랫폼 Origin과 모바일 앱 공개

LangGraph의 세 가지 재작성: 프로덕션 환경에서 상태 유지 에이전트(Stateful Agents)의 체크포인팅(Checkpointing)

AI 채용 SaaS 구축하기: 배운 점들

Andrew Ng의 OpenWorker: 오픈 소스 데스크톱 AI 에이전트

Cursor, 자체 학습 LLM 출시 및 Git 플랫폼 Origin과 모바일 앱 공개

LangGraph의 세 가지 재작성: 프로덕션 환경에서 상태 유지 에이전트(Stateful Agents)의 체크포인팅(Checkpointing)

AI 채용 SaaS 구축하기: 배운 점들

Andrew Ng의 OpenWorker: 오픈 소스 데스크톱 AI 에이전트