심리학적 정서 이론에 따른 텍스트 임베딩 내 정서적 단서에 관한 비교 연구
요약
본 연구는 최신 텍스트 인코더들이 심리학적 정서 이론을 얼마나 잘 포착하는지 분석합니다. 12개의 인코더를 대상으로 단어 및 문장 수준에서 정서적 역량을 비교하며, 오픈 웨이트 모델의 잠재적 가능성을 확인합니다.
핵심 포인트
- 12개의 최신 텍스트 인코더의 정서적 역량 비교 분석
- 오픈 웨이트 인코더가 단어 수준에서 폐쇄형 모델과 대등한 정서 정보 보유
- 문장 수준 정서 분류에서는 태스크 튜닝 및 폐쇄형 모델이 우세
- 의미론적 데이터 누출 방지 기술을 통한 평가 강건성 확보
텍스트 인코더(Text encoders)는 의미를 보존하면서 입력을 밀집 벡터(dense vectors)로 효율적으로 압축할 수 있기 때문에 자연어 처리(natural language processing) 분야에서 그 유용성이 잘 알려져 있습니다. 이러한 모델들은 정서 컴퓨팅(affective computing), 특히 감성 분석(sentiment analysis) 및 감정 인식(emotion recognition) 과제를 해결하는 데 적용되어 왔습니다. 그럼에도 불구하고, 현대적인 텍스트 인코더가 생성하는 잠재 표현(latent representations)이 잘 정의된 심리학적 정서 이론을 어느 정도까지 포착하는지는 여전히 불분명합니다. 본 연구에서는 단어 및 문장 수준의 데이터를 모두 사용하여, 세 가지 확립된 감정 프레임워크(emotion frameworks)에 걸쳐 회귀(regression) 및 분류(classification) 과제를 해결하기 위한 입력 특징(input features)으로서 생성된 임베딩을 조사함으로써, 최근 출시된 12개의 텍스트 인코더의 정서적 역량을 조사합니다. 또한, 단어 수준 평가에서의 강건성(robustness)을 향상시키기 위해 의미론적 데이터 누출 방지(semantic data-leakage prevention) 기술을 적용합니다. 우리의 주요 연구 결과에 따르면, 최신 지시어 인식 오픈 웨이트(instruction-aware open-weight) 인코더의 잠재 매니폴드(latent manifolds)는 단어 수준에서 평가되었을 때 폐쇄형(proprietary) 모델들과 비교하여 동일하거나 심지어 더 많은 양의 정서적 정보를 포함하고 있음을 보여줍니다. 반면, 태스크 튜닝(task-tuned)된 인코더와 폐쇄형 인코더의 임베딩은 문장 수준의 정서 분류에서 가장 높은 점수를 기록했습니다. 나아가, 잠재 표현과 그 안에 인코딩된 정서적 단서에 대한 질적 분석을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기