arXiv논문2026. 06. 04. 12:04

AICompanionBench: AI 동반자의 안전성을 위한 LLMs-as-Judges 벤치마킹

요약

AI 동반자 플랫폼의 안전성을 평가하기 위한 새로운 벤치마크 데이터셋인 AICompanionBench를 소개합니다. 9가지 미세한 안전 위험 범주를 포함한 실제 대화 데이터를 통해 20개의 최첨단 LLM의 안전성 탐지 능력을 평가했습니다.

핵심 포인트

AI 동반자 상호작용을 위한 최초의 미세 안전 위험 벤치마크 공개
성적, 반사회적, 자해 등 9가지 세부 안전 범주 정의
LLM-as-judge 프레임워크를 통한 20개 모델 성능 비교
명시적 유해성은 잘 탐지하나 암시적 위험 탐지에는 한계 존재

Replika 및 Character.AI와 같은 AI 동반자 (AI companion) 플랫폼이 급격히 성장함에 따라, 안전하지 않은 인간-AI 상호작용에 대한 우려가 심화되고 있습니다. 본 연구는 우리가 알고 있는 한, 미세한 안전 위험 범주 (fine-grained safety risk categories)로 주석이 달린 인간-AI 동반자 대화의 첫 번째 공개 벤치마크 데이터셋인 AICompanionBench를 소개합니다. 이 데이터셋은 Reddit에서 수집된 2,123개의 실제 Replika 대화를 포함하고 있으며, 성적 행동 (sexual behavior), 반사회적 행동 (antisocial behavior), 물리적 공격성 (physical aggression), 언어적 공격성 (verbal aggression), 약물 남용 (substance abuse), 자해 및 자살 (self-harm and suicide), 통제 (control), 조종 (manipulation), 그리고 무해함 (no-harm)의 9가지 범주에 대해 인간-AI 협업을 통해 주석이 달렸습니다. 이 벤치마크를 사용하여, 우리는 안전하지 않은 상호작용을 탐지하기 위한 LLM-as-judge 프레임워크 하에서 20개의 최첨단 오픈 소스 및 폐쇄형 LLM (Large Language Models)을 평가합니다. 결과에 따르면 모델 성능에 상당한 차이가 나타났으며, 성능이 뛰어난 모델은 높은 전체 정확도를 달성했지만 조종 (manipulation)과 같은 미묘한 범주와 해롭지 않은 대화가 해로운 것으로 잘못 식별되는 문제에서는 여전히 어려움을 겪고 있습니다. 우리의 연구 결과는 현재의 LLM이 명시적인 유해 콘텐츠는 효과적으로 탐지할 수 있지만, 암시적인 안전하지 않은 상호작용을 식별하는 데에는 여전히 한계가 있음을 시사합니다. 전반적으로, 우리의 작업은 AI 동반자 안전 연구를 위한 새로운 벤치마크 데이터셋을 기여하며, LLM을 사용하여 AI 동반자 시스템을 모니터링하는 것에 대한 통찰력을 제공합니다. 데이터셋은 다음에서 공개적으로 사용할 수 있습니다: https://github.com/anonymousresearcher2026/AICompanionBench/blob/main/AICompanionBench.xlsx

AI 자동 생성 콘텐츠

원문 바로가기

AICompanionBench: AI 동반자의 안전성을 위한 LLMs-as-Judges 벤치마킹

요약

핵심 포인트

댓글