심리 상담 대화에서 은밀한 사호칸스 (Sycophancy) 감지: 동적 감정 서명 그래프를 활용한 다중 도메인 지원 대화 평가

대화형 AI 심리 치료사가 심리적 지원 환경에 점점 더 널리 사용됨에 따라, 신뢰할 수 있는 오프라인 치료 반응 품질 평가는 여전히 해결되지 않은 문제이다. 본 논문은 대형 언어 모델 (LLM) 을 최종 판단자로 사용하지 않는 다중 도메인 지원 대화 평가를 연구한다. 우리는 원본 대화 텍스트를 읽어서 목표 응답이 해롭는지, 생산적인지, 아니면 중립적인지 예측하는 직접 LLM 판단자를 베이스라인으로 사용한다. 우리는 직접 LLM 판단자와 대칭 텍스트 유사도 지표가 치료 품질과 잘 정렬되지 않는다는 사실을 발견했다. 이는 목표 라벨이 임상 방향에 의존하기 때문이다: 즉 응답이 사용자가 상태 조절 (regulation) 또는 재구성 (reframing) 으로 상태를 이동시키는지, 아니면 전반적으로 변하지 않게 하는지, 아니면 더 높은 위험 감정 (affect) 또는 인지 왜곡 질량 (cognitive-distortion mass) 을 통해 악화를 강화하는지에 따라 달라진다. 이 문제를 해결하기 위해 우리는 모델 무관 평가자 (model-agnostic evaluator) 인 동적 감정 서명 그래프 (DESG) 를 제안한다. DESG 는 임상 상태와 점수를 산출할 때 임상 기하학을 비대칭적으로 사용하여 대화 윈도우를 표현하고 점수화한다. 우리는 EmpatheticDialogues, ESConv, 및 CRADLE-Dialogue 에서 생성된 3,000 개의 대화 윈도우로 구성된 진단 스트레스 테스트 벤치마크에서 DESG 를 평가했다. 이는 동료 지원 (peer support), 상담 대화 (counseling dialogue), 및 위기 지향적 상호작용 (crisis-oriented interaction) 을 포함한다. 600 윈도우의 홀드아웃 테스트 집계에서 DESG-Ensemble 은 0.9353 의 매크로 F1 점수를 달성하여, ConcatANN 보다 1.51 퍼센트 포인트 높게, BERTScore 보다 19.63 포인트 높게, TRACT 보다 33.81 포인트 높게 수행했다. 기능 제거 (feature ablations), 아티팩트 제어, 100 윈도우 블라인드 판단자 감사 (blinded adjudicator audit), 및 정성적 불일치 사례는 임상 상태 매니폴드 (clinical state manifold) 가 주요 구별 기질임을 시사하며, 그래프 기반 궤적 구성 요소가 성능의 유일한 근원이 아니라 비대칭 점수와 해석 가능한 진단을 제공하는 것을 나타낸다.

Insights

심리 상담 대화에서 은밀한 사호칸스 (Sycophancy) 감지: 동적 감정 서명 그래프를 활용한 다중 도메인 지원 대화 평가

요약

핵심 포인트

댓글

GPT-5.6 완전 가이드: Sol, Terra, Luna의 성능, 가격 및 사용 권장 사항

T. Rowe Price의 Love, 소형주 수익성이 개선되고 있다고 말하다

운영 환경에서 OpenRouter 실행하기: 무엇이 고장 나고, 무엇이 작동하며, 내가 다르게 할 일들

또 다른 암호화폐 기업이 비트코인 보유량을 매각하다

GPT-5.6 완전 가이드: Sol, Terra, Luna의 성능, 가격 및 사용 권장 사항

T. Rowe Price의 Love, 소형주 수익성이 개선되고 있다고 말하다

운영 환경에서 OpenRouter 실행하기: 무엇이 고장 나고, 무엇이 작동하며, 내가 다르게 할 일들

또 다른 암호화폐 기업이 비트코인 보유량을 매각하다