From Syntax to Emotion: A Mechanistic Analysis of Emotion Inference in LLMs
요약
본 연구는 대규모 언어 모델(LLMs) 내의 감정 인식 메커니즘을 희소 오토인코더 분석과 단계별 인과 추적을 통해 체계적으로 조사했습니다. 그 결과, LLM이 감정을 처리하는 과정은 공유 특징과 특화 특징으로 구성된 3단계 정보 흐름을 따르며, 특정 감정(예: 혐오감)은 다른 감정과 다르게 표현됨을 밝혀냈습니다. 나아가, 모델의 해석 가능성을 유지하면서 여러 감정 인식 데이터셋에서 성능을 향상시키는 효율적인 인과 특징 스티어링 방법을 제안했습니다.
핵심 포인트
- LLMs의 감정 인식은 희소 활성화 분석을 통해 3단계 정보 흐름(shared and specialized features)을 따르는 것으로 확인되었다.
- 감정 표현은 공유되는 일반적 특징과 해당 감정에 특화된 특징으로 구성되어 있다.
- 단계별 인과 추적을 통해 감정 예측에 결정적인 영향을 미치는 소수의 핵심 특징 집합을 식별할 수 있었다.
- 모델의 해석 가능성을 유지하면서 감정 인식 성능을 개선하는 새로운 '인과 특징 스티어링' 방법을 제안하고 그 일반화 가능성을 입증했다.
대규모 언어 모델 (LLMs) 은 감정적으로 민감한 인간-AI 응용 분야에서 점점 더 많이 사용되고 있지만, 감정 인식의 내부 표현 방식에 대해서는 알려진 것이 거의 없습니다. 본 연구에서는 희소 오토인코더 (SAEs) 를 사용하여 LLM 내에서의 감정 인식 내부 메커니즘을 조사합니다. 레이어 전반에 걸친 희소 특징 활성화 (sparse feature activations) 를 분석함으로써, 감정 관련 특징이 마지막 단계에서만 나타나는 일관된 3 단계 정보 흐름을 확인합니다. 또한 우리는 감정 표현이 감정 간 공유 특징과 감정 특화 특징으로 구성됨을 보여줍니다. 단계별 분할 인과 추적 (phase-stratified causal tracing) 을 통해 감정 예측에 강력한 영향을 미치는 소수의 특징 집합을 식별하고, 이 특징들의 수와 인과적 영향이 감정마다 다르다는 것을 보여줍니다. 특히 혐오감 (Disgust) 은 다른 감정들보다 더 약하고 확산된 방식으로 표현됩니다. 마지막으로, 우리는 언어 모델링 능력을 크게 유지하면서 여러 모델에서 감정 인식 성능을 현저히 개선하는 해석 가능하고 데이터 효율적인 인과 특징 스티어링 (causal feature steering) 방법을 제안하며, 이 개선 사항이 여러 감정 인식 데이터셋에 걸쳐 일반화된다는 것을 입증합니다. 전반적으로, 우리의 발견은 LLM 내에서의 감정 인식에 기반한 내부 메커니즘에 대한 체계적 분석을 제공하며, 모델 성능 개선을 위한 효율적이고 해석 가능하며 제어 가능한 접근법을 소개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기