arXiv논문2026. 05. 28. 12:10

LLM 기반 사회적 에이전트의 현실성 평가: 스페인 온라인 뉴스에 대한 반응 사례 연구

요약

LLM 기반 사회적 에이전트가 생성한 뉴스 반응의 현실성을 평가한 연구입니다. 스페인 뉴스 데이터셋을 활용해 5개의 LLM을 비교한 결과, 오프더쉘프 모델은 실제 인간의 담론을 재현하는 데 한계가 있음을 확인했습니다.

핵심 포인트

LLM 생성 반응과 실제 독자 담론 간의 차이 분석
혐오 표현, 감성, 의미론적 정렬 세 가지 차원 평가
오프더쉘프 모델의 낮은 현실성과 감성 편향 확인
파인튜닝을 통한 성능 개선 및 모델별 특성 차이 규명

LLM (Large Language Model) 기반 사회적 에이전트 (Social Agents)가 온라인 사회적 행동을 시뮬레이션하는 데 점점 더 많이 사용되고 있지만, 이들의 현실성을 검증하는 것은 여전히 어려운 과제로 남아 있습니다. 기존 연구들은 주로 범용 벤치마크 (Benchmarks)에 의존해 왔으며, 온라인 뉴스에 대한 독자들의 댓글과 같이 짧고 반응적인 담론 (Discourse)에는 상대적으로 주의를 덜 기울였습니다. 본 논문에서는 LLM이 생성한 스페인 온라인 뉴스에 대한 반응이 실제 독자 담론의 측정 가능한 특성들을 재현하는지 평가합니다. Hatemedia 데이터셋을 사용하여 5,631개의 뉴스 항목과 58,555개의 실제 독자 반응을 쌍으로 구성하였으며, 공유된 실험 설정 하에서 5개의 LLM을 사용하여 매칭된 합성 데이터셋 (Synthetic Dataset)을 생성했습니다. 우리는 오프더쉘프 (Off-the-shelf, 별도 튜닝 없는) 모델과 파인튜닝 (Fine-tuned)된 생성 모델을 모두 고려하여 혐오 표현 (Hate speech), 감성 (Sentiment), 의미론적 정렬 (Semantic alignment)이라는 세 가지 차원에서 실제 반응과 합성 반응을 비교했습니다. 결과에 따르면 오프더쉘프 모델은 실제 독자 반응을 대변하기에 부족한 것으로 나타났습니다. 이 모델들은 혐오 표현을 현저히 적게 생성하고, 모델 특유의 감성 편향 (Sentiment biases)을 유발하며, 인간의 답글과는 분포적으로 거리가 멀었습니다. 파인튜닝은 충실도 (Fidelity)를 불균형하게 개선했습니다. Qwen3는 가장 균형 잡힌 근사치를 제공한 반면, Mistral7B는 가장 강력한 감성 및 의미론적 정렬을 달성했으나 혐오 표현의 빈도를 과도하게 높였습니다. 그럴듯한 합성 답글이 반드시 공적 담론의 분포적 특성을 재현하는 것은 아닙니다.

AI 자동 생성 콘텐츠

원문 바로가기