심리 상담 대화에서 은밀한 사호칸스 (Sycophancy) 감지: 동적 감정 서명 그래프를 활용한 다중 도메인 지원 대화 평가
요약
본 논문은 대화형 AI 심리 치료사의 반응 품질을 평가하기 위해 기존 LLM 판단자의 한계를 극복하는 새로운 모델 무관 평가자, 동적 감정 서명 그래프(DESG)를 제안합니다. DESG는 임상 기하학을 비대칭적으로 사용하여 대화 윈도우의 상태와 점수를 산출하며, 이는 단순히 텍스트 유사성이나 LLM 판단에 의존하는 기존 방식보다 더 정확하고 해석 가능한 평가를 제공합니다. 다양한 심리 지원 시나리오에서 DESG는 높은 성능을 입증하며, 임상 상태 매니폴드가 대화 품질 구별의 핵심임을 보여줍니다.
핵심 포인트
- AI 심리 치료사 반응 평가는 단순한 텍스트 유사성이나 LLM 판단만으로는 부족하며, 임상적 맥락이 중요하다.
- 제안된 동적 감정 서명 그래프(DESG)는 대화 윈도우를 임상 기하학을 사용하여 비대칭적으로 표현하고 점수화하는 모델 무관 평가자이다.
- DESG-Ensemble은 다양한 심리 지원 벤치마크에서 높은 매크로 F1 점수를 달성하며 기존 방법론 대비 우수한 성능을 보였다.
- 평가 결과는 대화의 품질이 단순히 단어 선택이 아닌, 임상 상태(clinical state manifold)의 변화와 추적에 달려 있음을 시사한다.
대화형 AI 심리 치료사가 심리적 지원 환경에 점점 더 널리 사용됨에 따라, 신뢰할 수 있는 오프라인 치료 반응 품질 평가는 여전히 해결되지 않은 문제이다. 본 논문은 대형 언어 모델 (LLM) 을 최종 판단자로 사용하지 않는 다중 도메인 지원 대화 평가를 연구한다. 우리는 원본 대화 텍스트를 읽어서 목표 응답이 해롭는지, 생산적인지, 아니면 중립적인지 예측하는 직접 LLM 판단자를 베이스라인으로 사용한다. 우리는 직접 LLM 판단자와 대칭 텍스트 유사도 지표가 치료 품질과 잘 정렬되지 않는다는 사실을 발견했다. 이는 목표 라벨이 임상 방향에 의존하기 때문이다: 즉 응답이 사용자가 상태 조절 (regulation) 또는 재구성 (reframing) 으로 상태를 이동시키는지, 아니면 전반적으로 변하지 않게 하는지, 아니면 더 높은 위험 감정 (affect) 또는 인지 왜곡 질량 (cognitive-distortion mass) 을 통해 악화를 강화하는지에 따라 달라진다. 이 문제를 해결하기 위해 우리는 모델 무관 평가자 (model-agnostic evaluator) 인 동적 감정 서명 그래프 (DESG) 를 제안한다. DESG 는 임상 상태와 점수를 산출할 때 임상 기하학을 비대칭적으로 사용하여 대화 윈도우를 표현하고 점수화한다. 우리는 EmpatheticDialogues, ESConv, 및 CRADLE-Dialogue 에서 생성된 3,000 개의 대화 윈도우로 구성된 진단 스트레스 테스트 벤치마크에서 DESG 를 평가했다. 이는 동료 지원 (peer support), 상담 대화 (counseling dialogue), 및 위기 지향적 상호작용 (crisis-oriented interaction) 을 포함한다. 600 윈도우의 홀드아웃 테스트 집계에서 DESG-Ensemble 은 0.9353 의 매크로 F1 점수를 달성하여, ConcatANN 보다 1.51 퍼센트 포인트 높게, BERTScore 보다 19.63 포인트 높게, TRACT 보다 33.81 포인트 높게 수행했다. 기능 제거 (feature ablations), 아티팩트 제어, 100 윈도우 블라인드 판단자 감사 (blinded adjudicator audit), 및 정성적 불일치 사례는 임상 상태 매니폴드 (clinical state manifold) 가 주요 구별 기질임을 시사하며, 그래프 기반 궤적 구성 요소가 성능의 유일한 근원이 아니라 비대칭 점수와 해석 가능한 진단을 제공하는 것을 나타낸다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기