본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 28. 16:46

멀티태스크 BiLSTM 및 AutoML 벤치마킹을 통한 인도네시아 전자상거래 리뷰의 감정 및 감정 분류

요약

본 논문은 표준 어휘와 은어, 지역 차용어가 혼재된 인도네시아 전자상거래 리뷰의 감정 분석 문제를 다룹니다. 5,400개의 제품 리뷰 데이터셋(PRDECT-ID)을 사용하여 이분법적 감정 및 5가지 클래스 감정을 분류하는 두 가지 트랙 파이프라인을 제시합니다. 첫 번째는 AutoML 기반 TF-IDF 접근 방식이며, 두 번째는 공유 인코더와 작업별 출력 헤드를 갖춘 BiLSTM 네트워크를 활용하여 높은 성능을 달성했습니다.

핵심 포인트

  • 인도네시아 전자상거래 리뷰의 복잡한 언어적 특성(은어, 지역 차용어 등)으로 인해 기존 감정 분석 도구 적용에 어려움이 있음.
  • 제안된 솔루션은 AutoML 기반 TF-IDF 분류기와 공유 인코더 BiLSTM 네트워크를 결합하여 벤치마킹을 수행함.
  • 전처리 과정에서 은어 사전 등을 포함한 14단계의 정교한 순차적 정제 단계를 적용하여 데이터 품질을 높임.
  • 최종 모델은 Hugging Face Spaces와 Gradio 애플리케이션으로 배포되어 실제 사용 가능성을 입증함.

인도네시아 마켓플레이스 리뷰는 표준 어휘와 은어, 지역 차용어, 숫자 약칭, 이모지 (emoji) 가 혼재되어 있어 사전 기반 감정 분석 도구를 실제 적용 시 신뢰할 수 없게 만듭니다. 본 논문은 29 개 인도네시아 전자상거래 카테고리의 제품 리뷰 5,400 건을 포함하는 PRDECT-ID 데이터셋에 적용된 두 트랙 분류 파이프라인을 설명합니다. 각 리뷰는 이분법적 감정 (Positive/Negative) 과 5 가지 클래스의 감정 (Happy, Sad, Fear, Love, Anger) 으로 라벨링되어 있습니다. 첫 번째 트랙은 표준 분류기에 대해 PyCaret AutoML 스윕과 함께 TF-IDF 벡터화를 적용합니다. 두 번째 트랙은 공유 인코더와 두 개의 작업별 출력 헤드를 갖는 PyTorch 양방향 장기 단기 기억 (BiLSTM) 네트워크입니다. 전처리 모듈은 마켓플레이스 코퍼스로부터 조립된 140 개 항목의 은어 사전 등을 포함한 14 단계의 순차적 정제 단계를 적용합니다. 벤치마킹 대상 구성은 BiLSTM Baseline, BiLSTM Improved, BiLSTM Large, TextCNN 의 네 가지입니다. 학습에는 클래스 가중치 크로스 엔트로피 손실 (class-weighted cross-entropy loss), ReduceLROnPlateau 스케줄링, 조기 종료 (early stopping) 를 사용합니다. 두 트랙 모두 Hugging Face Spaces 에서 Gradio 애플리케이션으로 배포됩니다. 소스 코드는 https://github.com/ikii-sd/pba2026-crazyrichteam 에서 공개되어 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
5

댓글

0