멀티태스크 BiLSTM 및 AutoML 벤치마킹을 통한 인도네시아 전자상거래 리뷰의 감정 및 감정 분류

인도네시아 마켓플레이스 리뷰는 표준 어휘와 은어, 지역 차용어, 숫자 약칭, 이모지 (emoji) 가 혼재되어 있어 사전 기반 감정 분석 도구를 실제 적용 시 신뢰할 수 없게 만듭니다. 본 논문은 29 개 인도네시아 전자상거래 카테고리의 제품 리뷰 5,400 건을 포함하는 PRDECT-ID 데이터셋에 적용된 두 트랙 분류 파이프라인을 설명합니다. 각 리뷰는 이분법적 감정 (Positive/Negative) 과 5 가지 클래스의 감정 (Happy, Sad, Fear, Love, Anger) 으로 라벨링되어 있습니다. 첫 번째 트랙은 표준 분류기에 대해 PyCaret AutoML 스윕과 함께 TF-IDF 벡터화를 적용합니다. 두 번째 트랙은 공유 인코더와 두 개의 작업별 출력 헤드를 갖는 PyTorch 양방향 장기 단기 기억 (BiLSTM) 네트워크입니다. 전처리 모듈은 마켓플레이스 코퍼스로부터 조립된 140 개 항목의 은어 사전 등을 포함한 14 단계의 순차적 정제 단계를 적용합니다. 벤치마킹 대상 구성은 BiLSTM Baseline, BiLSTM Improved, BiLSTM Large, TextCNN 의 네 가지입니다. 학습에는 클래스 가중치 크로스 엔트로피 손실 (class-weighted cross-entropy loss), ReduceLROnPlateau 스케줄링, 조기 종료 (early stopping) 를 사용합니다. 두 트랙 모두 Hugging Face Spaces 에서 Gradio 애플리케이션으로 배포됩니다. 소스 코드는 https://github.com/ikii-sd/pba2026-crazyrichteam 에서 공개되어 있습니다.

Insights

멀티태스크 BiLSTM 및 AutoML 벤치마킹을 통한 인도네시아 전자상거래 리뷰의 감정 및 감정 분류

요약

핵심 포인트

댓글

Walmart 분기 실적 프리뷰: 알아야 할 사항

실적 프리뷰: Ross Stores의 보고서에서 기대할 수 있는 것

미국 메모리 주식의 하락, 투자자들에게 새로운 매수 기회 제공할 수도

Claude에게 물어본 Opus 5에서 변경하면 좋은 프롬프트 등의 개인적인 정리

Walmart 분기 실적 프리뷰: 알아야 할 사항

실적 프리뷰: Ross Stores의 보고서에서 기대할 수 있는 것

미국 메모리 주식의 하락, 투자자들에게 새로운 매수 기회 제공할 수도

Claude에게 물어본 Opus 5에서 변경하면 좋은 프롬프트 등의 개인적인 정리