arXiv논문2026. 06. 26. 10:50

모델은 어디에서 행복을 찾는가? 오픈 소스 LLM 내의 감정 벡터 (Emotion Vectors)

요약

오픈 소스 LLM인 Apertus-8B와 Gemma-4에서 감정 개념을 인코딩하는 '감정 벡터'의 존재를 확인한 연구입니다. 모델의 레이어 깊이에 따라 가치(valence)와 각성(arousal) 표현이 나타나는 방식의 차이를 분석하고 실험 데이터셋을 공개합니다.

핵심 포인트

오픈 웨이트 모델에서 감정 개념을 반영하는 기하학적 구조 식별
모델별로 가치(valence) 표현이 나타나는 레이어 깊이의 차이 발견
각성(arousal) 인코딩은 생성된 코퍼스의 특성에 민감하게 반응
감정 표현 조사를 위한 실험 코드 및 데이터셋 오픈 소스 공개

최근 연구는 Claude Sonnet 4.5에서 감정 개념을 인코딩하고, 행동에 인과적인 영향을 미치며, 인간의 심리 구조를 반영하는 기하학적 구조를 보이는 내부 표현인 감정 벡터 (emotion vectors)를 식별했습니다. 우리는 두 개의 오픈 웨이트 (open-weight) 모델인 Apertus-8B-Instruct-2509와 Gemma-4-E4B-it를 사용하여 이러한 발견의 일반성을 테스트하였으며, 모델이 생성한 두 개의 코퍼스 (corpora)를 사용하여 모든 레이어에 걸쳐 감정 대조 벡터 (emotion contrast vectors)를 추출했습니다. 우리는 두 모델 모두에서 가치 (valence) 기하학을 복구하였으며, PC1--valence 상관관계의 정점은 각각 $r = 0.76$ 및 $r = 0.83$으로 나타나 Claude에서 보고된 $r = 0.81$에 근접했습니다. 재현을 넘어, 우리는 모델의 깊이에 따라 가치 표현이 나타나는 방식에서 주목할 만한 차이점을 관찰했습니다. Gemma-4-E4B-it의 경우, 가치는 초기 레이어에 강력하게 인코딩되어 있지만 후기 레이어로 갈수록 붕괴되는 반면, Apertus-8B-Instruct-2509는 초기 레이어에는 가치 표현이 없다가 중간 깊이에서 나타나는 반대 패턴을 보입니다. 이와 대조적으로 각성 (arousal) 인코딩은 추출 코퍼스에 민감하게 반응합니다. 두 모델 모두 Apertus가 생성한 코퍼스($r ext{ } ext{leq} ext{ } 0.21$)보다 Gemma가 생성한 이야기($r ext{ 가 } 0.45 ext{ 까지}$)에서 더 강한 PC2--arousal 정렬을 보여주었으며, 이는 각성과 관련된 단서가 생성된 코퍼스 전반에 걸쳐 불균등하게 분포되어 있음을 시사합니다. 우리는 언어 모델 아키텍처 전반에 걸친 감정 표현의 재현 가능한 조사를 위해 실험 코드와 데이터셋을 오픈 소스로 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

모델은 어디에서 행복을 찾는가? 오픈 소스 LLM 내의 감정 벡터 (Emotion Vectors)

요약

핵심 포인트

댓글