arXiv논문2026. 04. 29. 21:34

인도네시아 IKN 트위터 데이터에 대한 감성 분석을 위한 PyCaret AutoML과 IndoBERT 파인튜닝 비교 벤치마킹

요약

본 연구는 인도네시아어 트위터 데이터셋을 활용하여 IKN 관련 이진 감성 분석 모델을 구축하고, PyCaret AutoML과 IndoBERT 파인튜닝의 성능을 비교했습니다. 1,472개의 라벨링된 데이터를 기반으로 테스트한 결과, 로지스틱 회귀와 같은 고전적 머신러닝 모델은 높은 정확도를 보였으나, Transformer 기반의 IndoBERT를 파인튜닝한 모델이 압도적으로 우수한 성능(정확도 89.59%, F1-score 89.37%)을 달성했습니다.

핵심 포인트

IKN 관련 인도네시아어 소셜 미디어 감성 분석에 대한 비교 연구를 수행함.
고전적 머신러닝(PyCaret AutoML)은 로지스틱 회귀가 가장 좋은 성능을 보였으나, 딥러닝 모델 대비 성능 한계가 명확했음.
IndoBERT와 같은 Transformer 기반의 컨텍스트 임베딩이 비공식적인 소셜 미디어 텍스트에서 높은 감성 분석 정확도를 제공함을 입증함.
파인튜닝된 IndoBERT는 테스트 정확도 89.59%, F1-score 89.37%를 기록하며 머신러닝 베이스라인을 크게 능가했음.

본 논문은 인도네시아어 트위터 댓글 중 Ibu Kota Nusantara(IKN)와 관련된 이진 감성 분석(binary sentiment analysis)을 위해 고전적 머신러닝 접근법인 PyCaret AutoML 기반 방법과 딥러닝 접근법인 IndoBERT 파인튜닝 기반 방법을 벤치마킹합니다. 데이터셋은 1,472개의 수동 라벨링 샘플로 구성되어 있으며, 그중 780개는 부정적이고 692개는 긍정적 댓글입니다. 머신러닝 설정에서는 로지스틱 회귀(Logistic Regression), 나이브 베이즈(Naive Bayes), 서포트 벡터 머신(Support Vector Machine)을 10-폴드 교차 검증(10-fold cross-validation)으로 평가하였으며, 고전적 모델 중 로지스틱 회귀가 정확도 77.57%, F1-score 77.17%로 가장 높은 성능을 보였습니다. 딥러닝 설정에서는 indobenchmark/indobert-base-p1 모델을 5 에포크(epoch) 동안 파인튜닝하여 테스트 정확도 89.59%, F1-score 89.37%를 달성했습니다. 결과는 IndoBERT가 머신러닝 베이스라인을 압도적으로 능가함을 보여주며, 비공식적인 인도네시아 소셜 미디어 텍스트에 대해 Transformer 기반의 컨텍스트 표현(contextual representations)이 효과적임을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기