EMPATH: 정서 지원 챗봇의 안전성 평가를 위한 다국어 감사자-판사(Auditor-Judge) 벤치마크
요약
정서 지원 챗봇의 안전성을 다국어 및 다중 턴 환경에서 평가하기 위한 새로운 벤치마크인 EMPATH를 제안합니다. 감사자-판사(Auditor-Judge) 프레임워크를 통해 위기 대응 및 정서적 안전성을 정밀하게 측정합니다.
핵심 포인트
- 다국어(영어, 스페인어) 및 다중 턴 대화 기반의 안전성 평가 체계 구축
- 위기 대응, 치료적 품질 등 5개 차원 19개 지표를 통한 정밀 점수화
- 판사 모델의 점수 인플레이션 문제를 해결하기 위한 루브릭 보정 적용
- 실행 간 신뢰성(Run-to-run reliability)이 모델의 안전성 특성임을 규명
안전성 벤치마크(Safety benchmarks)는 프롬프트, 언어, 그리고 대화 턴(turn) 구조를 고정함으로써 확장성을 확보하는 경우가 많습니다. 정서 지원 챗봇(emotional-support chatbots)의 경우, 이러한 타협은 안전성 실패가 발생하는 정확한 지점, 즉 다국어 및 다중 턴(multi-turn) 위기 대화 상황을 은폐합니다. 우리는 정서 지원 챗봇의 안전성 평가를 위한 벤치마크인 EMPATH를 제시합니다. 감사자 모델(auditor model)은 도움을 요청하는 사용자를 역할 수행(role-plays)하며, 140개의 시드 지침(seed instructions)과 34개의 페르소나(personas)로부터 다중 턴 대화를 생성합니다. 판사 모델(judge model)은 위기 대응(crisis handling), 치료적 품질(therapeutic quality), 대화의 무결성(conversational integrity), 정서적 안전성(emotional safety), 문화적 적응(cultural adaptation)의 5개 차원에 걸친 19개 지표를 기준으로 각 전체 대화 기록을 점수화합니다. EMPATH는 멕시코 스페인어와 미국 영어로 구축되었으며, 여기서 보고된 연구는 멕시코 스페인어로 수행되었습니다. 감사자와 판사는 서로 다른 모델 제품군(model families)에서 추출되었으며, 판사는 신뢰하기보다는 보정(calibrated)되어야 할 도구로 취급됩니다. 기준별 엄격한 루브릭(rubric)을 적용한 결과, 19개 지표 중 10개에서 실질적인 점수 인플레이션(score inflation)이 발견되었으며, 이를 통해 변별력을 회복했습니다. 우리는 판사 보정(judge calibration)과 제품군 간 판사 일치도(cross-family inter-judge agreement)를 통해 벤치마크의 측정 특성을 연구합니다. 또한 우리는 세 가지 프론티어 모델(frontier models, 그 중 하나는 오픈 웨이트(open-weight) 모델)을 통해 EMPATH를 시연합니다. 총점은 서로 0.74점 이내에 위치하지만, 지표별 프로필은 모델별 특정 지점에서 최대 6점까지 차이가 납니다. 표준 루브릭 하에서, 순위와 약점 모두 두 번째 제품군 간 판사(cross-family judge)에 대해서도 안정적입니다: 점수의 93%가 ±1 범위 내에 있습니다. 5회 반복 검사-재검사(test-retest)는 두 번째 축을 추가합니다: 가장 안정적인 모델조차 동일한 재실행 시 위기 지표에서 2점에서 10점 사이로 변동하며, deepseek-v4-pro는 temperature가 0일 때조차 매 실행마다 다른 대화를 반환합니다. 따라서 실행 간 신뢰성(Run-to-run reliability)은 평균화하여 제거해야 할 노이즈가 아니라, 모델별 안전성 특성입니다. EMPATH는 시스템 불가지론적(system-agnostic)입니다. 파이프라인, 시드, 페르소나 및 루브릭은 재사용을 위해 공개됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기