arXiv논문2026. 06. 30. 11:07

심리학적 정서 이론에 따른 텍스트 임베딩 내 정서적 단서에 관한 비교 연구

요약

본 연구는 최신 텍스트 인코더들이 심리학적 정서 이론을 얼마나 잘 포착하는지 분석합니다. 12개의 인코더를 대상으로 단어 및 문장 수준에서 정서적 역량을 비교하며, 오픈 웨이트 모델의 잠재적 가능성을 확인합니다.

핵심 포인트

12개의 최신 텍스트 인코더의 정서적 역량 비교 분석
오픈 웨이트 인코더가 단어 수준에서 폐쇄형 모델과 대등한 정서 정보 보유
문장 수준 정서 분류에서는 태스크 튜닝 및 폐쇄형 모델이 우세
의미론적 데이터 누출 방지 기술을 통한 평가 강건성 확보

텍스트 인코더(Text encoders)는 의미를 보존하면서 입력을 밀집 벡터(dense vectors)로 효율적으로 압축할 수 있기 때문에 자연어 처리(natural language processing) 분야에서 그 유용성이 잘 알려져 있습니다. 이러한 모델들은 정서 컴퓨팅(affective computing), 특히 감성 분석(sentiment analysis) 및 감정 인식(emotion recognition) 과제를 해결하는 데 적용되어 왔습니다. 그럼에도 불구하고, 현대적인 텍스트 인코더가 생성하는 잠재 표현(latent representations)이 잘 정의된 심리학적 정서 이론을 어느 정도까지 포착하는지는 여전히 불분명합니다. 본 연구에서는 단어 및 문장 수준의 데이터를 모두 사용하여, 세 가지 확립된 감정 프레임워크(emotion frameworks)에 걸쳐 회귀(regression) 및 분류(classification) 과제를 해결하기 위한 입력 특징(input features)으로서 생성된 임베딩을 조사함으로써, 최근 출시된 12개의 텍스트 인코더의 정서적 역량을 조사합니다. 또한, 단어 수준 평가에서의 강건성(robustness)을 향상시키기 위해 의미론적 데이터 누출 방지(semantic data-leakage prevention) 기술을 적용합니다. 우리의 주요 연구 결과에 따르면, 최신 지시어 인식 오픈 웨이트(instruction-aware open-weight) 인코더의 잠재 매니폴드(latent manifolds)는 단어 수준에서 평가되었을 때 폐쇄형(proprietary) 모델들과 비교하여 동일하거나 심지어 더 많은 양의 정서적 정보를 포함하고 있음을 보여줍니다. 반면, 태스크 튜닝(task-tuned)된 인코더와 폐쇄형 인코더의 임베딩은 문장 수준의 정서 분류에서 가장 높은 점수를 기록했습니다. 나아가, 잠재 표현과 그 안에 인코딩된 정서적 단서에 대한 질적 분석을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

심리학적 정서 이론에 따른 텍스트 임베딩 내 정서적 단서에 관한 비교 연구

요약

핵심 포인트

댓글