정서적 격차의 정량화: 세분화된 감정 분류 체계에 대한 LLM의 제로샷 (Zero-Shot) 평가
요약
Claude, ChatGPT, Gemini 등 주요 LLM을 대상으로 세분화된 감정 분류 성능을 제로샷(Zero-Shot) 방식으로 평가한 연구입니다. Gemini가 가장 높은 정확도를 보였으나, 모든 모델이 사랑, 혼란, 수치심 등 특정 감정 분류에서 한계를 보였습니다.
핵심 포인트
- Gemini가 39.9%의 정확도로 감정 분류 작업에서 가장 우수한 성능 기록
- 모든 모델이 비꼬기와 욕구 인식에는 강하나, 사랑·혼란·수치심 분류에는 취약
- 모델 간 통계적으로 유의미한 성능 차이는 없으며 제로샷 성능의 한계 확인
- Claude는 클래스 불균형 예측 편향으로 인해 낮은 macro-F1 점수 기록
자연어에서의 감정 인식 (Emotion recognition)은 정서 컴퓨팅 (affective computing)의 기초적인 과제로, 인간-컴퓨터 상호작용 (human-computer interaction), 정신 건강 지원, 그리고 대화형 AI (conversational AI)에 있어 중요한 함의를 갖습니다. 본 논문은 세 가지 선도적인 상용 대규모 언어 모델 (large language models): Claude (claude-sonnet-4-6), ChatGPT (GPT-5.4), 그리고 Gemini (gemini-2.5-flash)에 대한 엄격하고 통합된 제로샷 (zero-shot) 평가를 제시합니다. 모델들은 2026년 4월 기준 각자의 프로덕션 API를 통해 13개의 세분화된 클래스 감정 분류 작업에 대해 질의되었습니다. 13개 카테고리에 걸쳐 131,306개의 문장으로 구성된 boltuix/emotions 데이터셋에서 층화 추출된 1,000개 문장 샘플을 사용하여, 예시(exemplars)가 없는 단일 통일된 프롬프트가 모든 모델에 동일하게 적용되었습니다. Gemini는 가장 높은 정확도 (39.9%)와 매크로-F1 점수 (macro-F1 score, 0.363)를 달성하였으며, GPT-5.4 (38.8%, macro-F1 = 0.291)와 Claude (38.0%, macro-F1 = 0.159)가 그 뒤를 이었습니다. 모든 모델은 비꼬기 (sarcasm)와 욕구 (desire)에서는 뛰어난 성능을 보였으나, 사랑 (love), 혼란 (confusion), 그리고 수치심 (shame)에서는 지속적으로 실패했습니다. McNemar 검정 결과, 통계적으로 유의미한 쌍별 차이는 나타나지 않았으며 (p > 0.10), 이는 공유된 제로샷 천장 (zero-shot ceiling)에서의 수렴을 시사합니다. Claude의 현저히 낮은 macro-F1 점수는 클래스 불균형 예측 편향 (class-imbalance prediction bias)을 드러냅니다. 이러한 발견은 제로샷 세분화된 감정 분류에서 최첨단 (frontier) AI 시스템의 현재 한계를 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기