UXBench: AI 어시스턴트의 사용자 경험(UX) 벤치마킹
요약
AI 어시스턴트의 사용자 경험(UX)을 평가하기 위한 최초의 사용자 중심 벤치마크인 UXBench를 제안합니다. 실제 사용자 피드백을 기반으로 UX Judge, UX Eval, UX Recovery의 세 가지 작업을 통해 모델의 UX 인지 능력을 측정합니다.
핵심 포인트
- 실제 사용자 로그 기반의 7,400개 테스트 인스턴스 포함
- 26개 최첨단 언어 모델 대상의 광범위한 실험 수행
- 사용자 피드백 예측이 학습 가능한 능력임을 입증
- LLM-as-a-judge 평가 프로토콜의 체계적 편향 기록
AI 어시스턴트가 매일 수백만 명의 사용자에게 서비스를 제공함에 따라, 일반적인 모델 성능을 넘어 사용자 경험 (UX)을 평가하는 것이 점점 더 중요해지고 있습니다. 우리는 선호도 정렬 (preference alignment) 및 대화 생성 (dialogue generation)을 평가하기 위해 실제 사용자 피드백 신호에 기반한 최초의 사용자 중심 벤치마크인 UXBench를 제시합니다. 이 벤치마크는 서로 연결된 세 가지 작업인 UX Judge, UX Eval, UX Recovery로 구성되며, 주요 중국 AI 어시스턴트의 7만 개 이상의 상호작용 로그에서 추출한 7,400개의 테스트 인스턴스를 포함합니다. 이 데이터셋은 8개의 시나리오, 83개의 도메인, 그리고 심각한 과제를 제기하는 다양한 실패 패턴을 다루며 실제 사용자 분포를 밀접하게 반영합니다. 26개의 최첨단 언어 모델 (frontier language models)을 대상으로 한 광범위한 실험은 모델이 사용자 경험을 얼마나 잘 인지하는지, 그리고 모델 성능의 향상이 더 나은 대화 참여 (dialogue engagement)에 어떻게 기여하는지에 대한 새로운 통찰을 제공합니다. 모델의 행동과 성능 격차에 대한 종합적인 분석을 통해, 우리는 사용자 피드백 예측이 학습 가능한 능력임을 보여주며, 실제 환경 (in-the-wild)의 피드백 신호로 학습된 보상 모델 (reward model)이 잘 보정된 정확도를 달성할 수 있음을 입증합니다. 나아가 우리는 LLM-as-a-judge 평가 프로토콜의 체계적인 편향을 기록하고, 사용자 경험에 직접적인 영향을 미치는 전형적인 응답 전략들을 비교합니다. UXBench는 새로운 평가 지형을 구축하며, 맞춤형 UX 최적화에 대한 더 큰 관심을 촉구하고, AI 어시스턴트의 성공을 결정짓는 사용자 중심 스케일링 법칙 (user-centric scaling law)에 기여합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기