arXiv논문2026. 06. 09. 11:50

UXBench: AI 어시스턴트의 사용자 경험(UX) 벤치마킹

요약

AI 어시스턴트의 사용자 경험(UX)을 평가하기 위한 최초의 사용자 중심 벤치마크인 UXBench를 제안합니다. 실제 사용자 피드백을 기반으로 UX Judge, UX Eval, UX Recovery의 세 가지 작업을 통해 모델의 UX 인지 능력을 측정합니다.

핵심 포인트

실제 사용자 로그 기반의 7,400개 테스트 인스턴스 포함
26개 최첨단 언어 모델 대상의 광범위한 실험 수행
사용자 피드백 예측이 학습 가능한 능력임을 입증
LLM-as-a-judge 평가 프로토콜의 체계적 편향 기록

AI 어시스턴트가 매일 수백만 명의 사용자에게 서비스를 제공함에 따라, 일반적인 모델 성능을 넘어 사용자 경험 (UX)을 평가하는 것이 점점 더 중요해지고 있습니다. 우리는 선호도 정렬 (preference alignment) 및 대화 생성 (dialogue generation)을 평가하기 위해 실제 사용자 피드백 신호에 기반한 최초의 사용자 중심 벤치마크인 UXBench를 제시합니다. 이 벤치마크는 서로 연결된 세 가지 작업인 UX Judge, UX Eval, UX Recovery로 구성되며, 주요 중국 AI 어시스턴트의 7만 개 이상의 상호작용 로그에서 추출한 7,400개의 테스트 인스턴스를 포함합니다. 이 데이터셋은 8개의 시나리오, 83개의 도메인, 그리고 심각한 과제를 제기하는 다양한 실패 패턴을 다루며 실제 사용자 분포를 밀접하게 반영합니다. 26개의 최첨단 언어 모델 (frontier language models)을 대상으로 한 광범위한 실험은 모델이 사용자 경험을 얼마나 잘 인지하는지, 그리고 모델 성능의 향상이 더 나은 대화 참여 (dialogue engagement)에 어떻게 기여하는지에 대한 새로운 통찰을 제공합니다. 모델의 행동과 성능 격차에 대한 종합적인 분석을 통해, 우리는 사용자 피드백 예측이 학습 가능한 능력임을 보여주며, 실제 환경 (in-the-wild)의 피드백 신호로 학습된 보상 모델 (reward model)이 잘 보정된 정확도를 달성할 수 있음을 입증합니다. 나아가 우리는 LLM-as-a-judge 평가 프로토콜의 체계적인 편향을 기록하고, 사용자 경험에 직접적인 영향을 미치는 전형적인 응답 전략들을 비교합니다. UXBench는 새로운 평가 지형을 구축하며, 맞춤형 UX 최적화에 대한 더 큰 관심을 촉구하고, AI 어시스턴트의 성공을 결정짓는 사용자 중심 스케일링 법칙 (user-centric scaling law)에 기여합니다.

AI 자동 생성 콘텐츠

원문 바로가기

UXBench: AI 어시스턴트의 사용자 경험(UX) 벤치마킹

요약

핵심 포인트

댓글