From Syntax to Emotion: A Mechanistic Analysis of Emotion Inference in LLMs

대규모 언어 모델 (LLMs) 은 감정적으로 민감한 인간-AI 응용 분야에서 점점 더 많이 사용되고 있지만, 감정 인식의 내부 표현 방식에 대해서는 알려진 것이 거의 없습니다. 본 연구에서는 희소 오토인코더 (SAEs) 를 사용하여 LLM 내에서의 감정 인식 내부 메커니즘을 조사합니다. 레이어 전반에 걸친 희소 특징 활성화 (sparse feature activations) 를 분석함으로써, 감정 관련 특징이 마지막 단계에서만 나타나는 일관된 3 단계 정보 흐름을 확인합니다. 또한 우리는 감정 표현이 감정 간 공유 특징과 감정 특화 특징으로 구성됨을 보여줍니다. 단계별 분할 인과 추적 (phase-stratified causal tracing) 을 통해 감정 예측에 강력한 영향을 미치는 소수의 특징 집합을 식별하고, 이 특징들의 수와 인과적 영향이 감정마다 다르다는 것을 보여줍니다. 특히 혐오감 (Disgust) 은 다른 감정들보다 더 약하고 확산된 방식으로 표현됩니다. 마지막으로, 우리는 언어 모델링 능력을 크게 유지하면서 여러 모델에서 감정 인식 성능을 현저히 개선하는 해석 가능하고 데이터 효율적인 인과 특징 스티어링 (causal feature steering) 방법을 제안하며, 이 개선 사항이 여러 감정 인식 데이터셋에 걸쳐 일반화된다는 것을 입증합니다. 전반적으로, 우리의 발견은 LLM 내에서의 감정 인식에 기반한 내부 메커니즘에 대한 체계적 분석을 제공하며, 모델 성능 개선을 위한 효율적이고 해석 가능하며 제어 가능한 접근법을 소개합니다.

Insights

From Syntax to Emotion: A Mechanistic Analysis of Emotion Inference in LLMs

요약

핵심 포인트

댓글

llama.cpp MTP 투기적 디코딩(speculative decoding) 요약: 2026년 7월 기준 Dense 모델에서는 큰 이득

하나의 에이전트에 3개의 MCP 서버를 연결했더니 무서울 정도로 빨라졌다

당신의 CLAUDE.md는 확장되지 않습니다. AI 표준을 코드로 버전 관리하세요.

플라스틱 전자책 단말기 케이스가 분류(Classifier) 문제로 변할 때

llama.cpp MTP 투기적 디코딩(speculative decoding) 요약: 2026년 7월 기준 Dense 모델에서는 큰 이득

하나의 에이전트에 3개의 MCP 서버를 연결했더니 무서울 정도로 빨라졌다

당신의 CLAUDE.md는 확장되지 않습니다. AI 표준을 코드로 버전 관리하세요.

플라스틱 전자책 단말기 케이스가 분류(Classifier) 문제로 변할 때