본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 12. 01:20

인도네시아 소셜 미디어 텍스트 기반 3개 클래스 감성 분석을 위한 하이브리드 TF-IDF 로지스틱 회귀 및 MLP 신경망 기준선

요약

본 논문은 인도네시아 소셜 미디어 텍스트를 대상으로 긍정, 부정, 중립의 세 가지 클래스로 감성을 분석하는 연구를 제시합니다. 제안된 방법론은 TF-IDF 특징과 메타데이터 특징을 결합한 하이브리드 접근 방식을 사용하며, 이를 다항 로지스틱 회귀(Logistic Regression)와 비교하여 MLP 신경망 모델의 성능을 평가했습니다. 실험 결과, 로지스틱 회귀 기반 모델이 높은 정확도와 안정적인 성능을 보여주었으며, 이는 소규모 데이터셋에서 해석 가능한 특징 공학과 클래스 균형 맞추기가 여전히 중요한 역할을 함을 시사합니다.

핵심 포인트

  • 인도네시아 소셜 미디어 텍스트 감성 분석(3개 클래스)에 대한 실용적인 기준선 연구를 제시함.
  • TF-IDF와 메타데이터 특징을 결합한 하이브리드 특징 표현이 효과적임을 입증함.
  • 로지스틱 회귀 모델이 MLP 신경망보다 소규모 감성 데이터셋에서 더 안정적이고 해석 가능한 성능을 제공함을 보여줌.
  • 소규모 언어 및 감성 데이터셋에서는 신중한 전처리, 특징 공학, 클래스 균형 맞추기가 핵심 성공 요인임.

본 논문은 인도네시아 소셜 미디어 텍스트에 대한 간결한 3개 클래스 감성 분석 연구를 제시합니다. 이 과제는 세분화된 감정 데이터셋에서 파생된 긍정(positive), 부정(negative), 중립(neutral) 출력을 사용하여 공식화되었습니다. 제안하는 실용적인 기준선은 TF-IDF 텍스트 특징, 세 가지 경량 숫자 메타데이터 특징, 그리고 균형 잡힌 다항 로지스틱 회귀(multinomial Logistic Regression) 분류기를 결합합니다. 비교를 위해 본 연구는 동일한 하이브리드 특징 표현을 사용하는 2층 다층 퍼셉트론(MLP) 기반의 신경망 기준선도 포함합니다. 원래 데이터셋은 732개 행과 191개의 세분화된 감정 레이블을 포함하고 있었으나, 정제, 중복 제거 및 레이블 재매핑 후 459개의 긍정, 188개의 부정, 60개의 중립 인스턴스로 불균형하게 분포된 707개의 샘플이 남아 있습니다. 실험 결과에 따르면 로지스틱 회귀 배포 모델은 정확도(accuracy) 0.8028, 가중치 F1(weighted F1) 0.8003, 그리고 매크로 F1(macro F1) 0.7276을 달성한 반면, 프로젝트 문서는 더 높은 정확도를 보이지만 비생산적인 MLP 기준선을 보고합니다. 이러한 발견은 신중한 전처리, 해석 가능한 특징 공학(feature engineering), 그리고 클래스 균형 맞추기가 소규모 인도네시아 감성 데이터셋에서 여전히 경쟁력이 있음을 나타내며, 신경망 기준선은 기본 배포 모델이라기보다는 비교 실험으로 취급하는 것이 더 낫다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0