주석 스키마 전반에 걸친 강건한 선전 분류를 위한 계층적 프롬프팅 (Hierarchical Prompting) 기반 미세 조정
요약
본 연구는 소셜 미디어의 노이즈가 많은 환경에서 선전(Propaganda)을 탐지하기 위해 의도에 초점을 맞춘 새로운 분류 체계를 도입하고, 이를 기존 스키마와 비교 평가했습니다. GPT-4.1-nano, Phi-4 14B, Qwen2.5-14B, Qwen3-14B 등 네 가지 언어 모델을 사용하여 세 가지 차원에서 분류 작업을 수행했으며, 그 결과 미세 조정(fine-tuning)의 중요성을 입증했습니다. 특히, 계층적 프롬프팅(HiPP) 방식은 모호하거나 일치도가 낮은 새로운 스키마에서 유용하며, Qwen 모델들이 전반적으로 강력한 성능을 보였고 Phi-4 14B가 GPT-4.1-nano보다 우수한 성능을 나타냈습니다.
핵심 포인트
- 소셜 미디어 선전 탐지는 노이즈와 낮은 주석 일치도로 인해 매우 어렵다.
- 연구는 의도 기반의 새로운 분류 체계를 도입하고, 이를 기존 스키마와 비교 평가했다.
- 미세 조정(fine-tuning)은 취약한 zero-shot 성능을 경쟁력 있는 시스템으로 만드는 데 필수적이다.
- 계층적 프롬프팅(HiPP) 방식은 모호하거나 일치도가 낮은 분류 체계에서 특히 유용성을 입증했다.
- Qwen 모델들이 전반적인 종합 성능 면에서 가장 강력했으며, Phi-4 14B가 GPT-4.1-nano보다 우수한 성능을 보였다.
소셜 미디어에서의 선전 (Propaganda) 탐지는 노이즈가 많고 짧은 텍스트, 그리고 낮은 주석 일치도 (annotation agreements)로 인해 매우 어렵습니다. 본 연구에서는 의도에 초점을 맞춘 새로운 선전 기법 분류 체계 (taxonomy)를 도입하고, 이를 일치도가 더 높은 기존의 확립된 스키마 (schema)와 비교합니다. 세 가지 차원(모델 포트폴리오, 스키마 효과, 프롬프팅 전략)을 따라, 네 가지 언어 모델 (GPT-4.1-nano, Phi-4 14B, Qwen2.5-14B, Qwen3-14B)의 도움을 받아 분류 작업으로서 해당 분류 체계들을 평가합니다. 연구 결과, 미세 조정 (fine-tuning)은 필수적임을 보여줍니다. 미세 조정은 취약한 제로샷 (zero-shot) 베이스라인을 경쟁력 있는 시스템으로 변환하며, 베이스 모델 (base models)을 사용할 때는 숨겨져 있던 방법론적 차이를 드러냅니다. 스키마 전반에 걸쳐 Qwen 모델들이 가장 강력한 종합 성능을 달encing하며, Phi-4 14B는 GPT-4.1-nano보다 일관되게 우수한 성능을 보입니다. 세밀한 기법들을 먼저 예측한 후 이를 집계하는 우리의 계층적 프롬프팅 (hierarchical prompting, HiPP) 방식은, 미세 조정 이후와 더 모호하고 일치도가 낮은 분류 체계에서 특히 유익하며, 더 단순한 스키마에서도 경쟁력을 유지합니다. 새로운 의도 기반 레이블로 주석이 달린 HQP 데이터셋은 선전의 전략적 목표에 대한 더 풍부한 관점을 제공하며, 강건한 실세계 탐지에 관한 향후 연구를 위한 도전적인 벤치마크 (benchmark)를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기