EIBench: 시뮬레이터 기반 벤치마크 및 감정 관리를 위한 Turn-Credit RL
요약
상호작용적 감정 관리를 평가하기 위한 시뮬레이터 기반 벤치마크인 EIBench를 소개합니다. 2,222개의 시나리오를 통해 LLM의 정서 지능을 다회차 대화 관점에서 평가하며, 강화학습 알고리즘인 CTC-GRPO를 통해 모델의 성능을 크게 향상시켰습니다.
핵심 포인트
- EIBench: 시뮬레이터를 활용한 다회차 감정 관리 벤치마크
- 2x2 분류 체계(Support, Defense, Repair, Charm)를 통한 시나리오 구성
- CTC-GRPO: 조밀한 피드백을 활용한 강화학습 방법론 제안
- Qwen3-8B 모델의 성능을 -22.4에서 +22.4로 대폭 개선
대규모 언어 모델 (LLMs)의 정서 지능 (EI)은 종종 정적인 이해 과제나 단일 응답 대화 생성을 통해 평가됩니다. 그러나 감정 관리 (emotion management)는 상호작용적입니다. 즉, 좋은 모델은 사용자의 감정을 인식할 뿐만 아니라, 여러 턴에 걸쳐 사용자의 정서적 및 관계적 상태를 개선해야 합니다. 우리는 상호작용적 감정 관리를 위한 시뮬레이터 기반 벤치마크인 EIBench를 소개합니다. EIBench는 2,222개의 시나리오를 포함하며, 이 중 2,009개는 학습용으로, 213개는 홀드아웃 (held-out) 테스트용으로 사용됩니다. 시나리오는 Support (지지), Defense (방어), Repair (복구), Charm (매력)을 다루는 2x2 분류 체계로 구성되어 있으며, 이들은 각각 지지, 경계 유지 (boundary maintenance), 신뢰 복구 (trust repair), 라포 형성 (rapport building)의 다양한 형태를 포착합니다. 각 시나리오에서 LLM 시뮬레이터가 사용자의 역할을 수행하며, 매 턴마다 정서-관계 상태를 업데이트하고, 최종 상태를 앵커 기반 점수 (anchor-based score)로 매핑합니다. 이러한 설계는 EIBench를 평가 벤치마크이자 학습 환경으로 만듭니다. 즉, 최종 상태는 결과 보상 (outcome reward)을 제공하고, 턴별 상태 업데이트는 강화학습 (RL)을 위한 조밀한 피드백 (dense feedback)을 제공합니다. 우리는 15개의 오픈 소스 및 폐쇄형 소스 LLM을 평가했습니다. 현재 모델들은 지지 및 라포 형성 장면에서는 좋은 성능을 보이지만, 사용자의 압박 하에서의 경계 유지에는 어려움을 겪습니다. LLM의 EI 능력을 향상시키기 위해, 우리는 Centered Turn-Credit GRPO (CTC-GRPO)를 제안합니다. 이는 최종 결과 보상을 보존하면서 시뮬레이터의 턴별 상태 업데이트를 조밀한 턴 수준 피드백으로 재사용하는 GRPO의 확장 방식입니다. CTC-GRPO는 EIBench에서 Qwen3-8B의 성능을 -22.4에서 +22.4로 향상시켰으며, SAGE (+12.4) 및 EQBench3 (+20.9%)를 포함한 분포 외 (out-of-distribution) 평가에서도 성능을 개선했습니다. 우리의 결과는 시뮬레이터로 추적된 사용자 상태가 다회차 감정 관리를 위한 평가와 학습 모두를 지원할 수 있음을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기