정서적 격차의 정량화: 세분화된 감정 분류 체계에 대한 LLM의 제로샷 (Zero-Shot) 평가

자연어에서의 감정 인식 (Emotion recognition)은 정서 컴퓨팅 (affective computing)의 기초적인 과제로, 인간-컴퓨터 상호작용 (human-computer interaction), 정신 건강 지원, 그리고 대화형 AI (conversational AI)에 있어 중요한 함의를 갖습니다. 본 논문은 세 가지 선도적인 상용 대규모 언어 모델 (large language models): Claude (claude-sonnet-4-6), ChatGPT (GPT-5.4), 그리고 Gemini (gemini-2.5-flash)에 대한 엄격하고 통합된 제로샷 (zero-shot) 평가를 제시합니다. 모델들은 2026년 4월 기준 각자의 프로덕션 API를 통해 13개의 세분화된 클래스 감정 분류 작업에 대해 질의되었습니다. 13개 카테고리에 걸쳐 131,306개의 문장으로 구성된 boltuix/emotions 데이터셋에서 층화 추출된 1,000개 문장 샘플을 사용하여, 예시(exemplars)가 없는 단일 통일된 프롬프트가 모든 모델에 동일하게 적용되었습니다. Gemini는 가장 높은 정확도 (39.9%)와 매크로-F1 점수 (macro-F1 score, 0.363)를 달성하였으며, GPT-5.4 (38.8%, macro-F1 = 0.291)와 Claude (38.0%, macro-F1 = 0.159)가 그 뒤를 이었습니다. 모든 모델은 비꼬기 (sarcasm)와 욕구 (desire)에서는 뛰어난 성능을 보였으나, 사랑 (love), 혼란 (confusion), 그리고 수치심 (shame)에서는 지속적으로 실패했습니다. McNemar 검정 결과, 통계적으로 유의미한 쌍별 차이는 나타나지 않았으며 (p > 0.10), 이는 공유된 제로샷 천장 (zero-shot ceiling)에서의 수렴을 시사합니다. Claude의 현저히 낮은 macro-F1 점수는 클래스 불균형 예측 편향 (class-imbalance prediction bias)을 드러냅니다. 이러한 발견은 제로샷 세분화된 감정 분류에서 최첨단 (frontier) AI 시스템의 현재 한계를 강조합니다.

Insights

정서적 격차의 정량화: 세분화된 감정 분류 체계에 대한 LLM의 제로샷 (Zero-Shot) 평가

요약

핵심 포인트

댓글

TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)

World from Motion: 단안 비디오로부터의 생성적 동적 가우시안 재구성 (Generative Dynamic Gaussian

AI가 당신의 시각화를 아름답게 만들 수 있을까요? 허용 가능한 미적 변경에 대한 전문가 판단

비정상 열전달에서의 Lagrangian 열 수송 경로 및 밀도 구조 시각화

TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)

World from Motion: 단안 비디오로부터의 생성적 동적 가우시안 재구성 (Generative Dynamic Gaussian

AI가 당신의 시각화를 아름답게 만들 수 있을까요? 허용 가능한 미적 변경에 대한 전문가 판단

비정상 열전달에서의 Lagrangian 열 수송 경로 및 밀도 구조 시각화