인도네시아 소셜 미디어 텍스트 기반 3개 클래스 감성 분석을 위한 하이브리드 TF-IDF 로지스틱 회귀 및 MLP 신경망 기준선

본 논문은 인도네시아 소셜 미디어 텍스트에 대한 간결한 3개 클래스 감성 분석 연구를 제시합니다. 이 과제는 세분화된 감정 데이터셋에서 파생된 긍정(positive), 부정(negative), 중립(neutral) 출력을 사용하여 공식화되었습니다. 제안하는 실용적인 기준선은 TF-IDF 텍스트 특징, 세 가지 경량 숫자 메타데이터 특징, 그리고 균형 잡힌 다항 로지스틱 회귀(multinomial Logistic Regression) 분류기를 결합합니다. 비교를 위해 본 연구는 동일한 하이브리드 특징 표현을 사용하는 2층 다층 퍼셉트론(MLP) 기반의 신경망 기준선도 포함합니다. 원래 데이터셋은 732개 행과 191개의 세분화된 감정 레이블을 포함하고 있었으나, 정제, 중복 제거 및 레이블 재매핑 후 459개의 긍정, 188개의 부정, 60개의 중립 인스턴스로 불균형하게 분포된 707개의 샘플이 남아 있습니다. 실험 결과에 따르면 로지스틱 회귀 배포 모델은 정확도(accuracy) 0.8028, 가중치 F1(weighted F1) 0.8003, 그리고 매크로 F1(macro F1) 0.7276을 달성한 반면, 프로젝트 문서는 더 높은 정확도를 보이지만 비생산적인 MLP 기준선을 보고합니다. 이러한 발견은 신중한 전처리, 해석 가능한 특징 공학(feature engineering), 그리고 클래스 균형 맞추기가 소규모 인도네시아 감성 데이터셋에서 여전히 경쟁력이 있음을 나타내며, 신경망 기준선은 기본 배포 모델이라기보다는 비교 실험으로 취급하는 것이 더 낫다는 것을 보여줍니다.

Insights

인도네시아 소셜 미디어 텍스트 기반 3개 클래스 감성 분석을 위한 하이브리드 TF-IDF 로지스틱 회귀 및 MLP 신경망 기준선

요약

핵심 포인트

댓글

AI 채용 SaaS 구축하기: 배운 점들

Andrew Ng의 OpenWorker: 오픈 소스 데스크톱 AI 에이전트

Tesla 실적 발표 관련 아이언 콘도르 (Iron Condor) 전략, 3일 만에 67% 수익 가능성

T. Rowe Price Group의 실적 발표를 앞두고 알아야 할 사항

AI 채용 SaaS 구축하기: 배운 점들

Andrew Ng의 OpenWorker: 오픈 소스 데스크톱 AI 에이전트

Tesla 실적 발표 관련 아이언 콘도르 (Iron Condor) 전략, 3일 만에 67% 수익 가능성

T. Rowe Price Group의 실적 발표를 앞두고 알아야 할 사항