본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 09. 11:50

UXBench: AI 어시스턴트의 사용자 경험(UX) 벤치마킹

요약

AI 어시스턴트의 사용자 경험(UX)을 평가하기 위한 최초의 사용자 중심 벤치마크인 UXBench를 제안합니다. 실제 사용자 피드백을 기반으로 UX Judge, UX Eval, UX Recovery의 세 가지 작업을 통해 모델의 UX 인지 능력을 측정합니다.

핵심 포인트

  • 실제 사용자 로그 기반의 7,400개 테스트 인스턴스 포함
  • 26개 최첨단 언어 모델 대상의 광범위한 실험 수행
  • 사용자 피드백 예측이 학습 가능한 능력임을 입증
  • LLM-as-a-judge 평가 프로토콜의 체계적 편향 기록

AI 어시스턴트가 매일 수백만 명의 사용자에게 서비스를 제공함에 따라, 일반적인 모델 성능을 넘어 사용자 경험 (UX)을 평가하는 것이 점점 더 중요해지고 있습니다. 우리는 선호도 정렬 (preference alignment) 및 대화 생성 (dialogue generation)을 평가하기 위해 실제 사용자 피드백 신호에 기반한 최초의 사용자 중심 벤치마크인 UXBench를 제시합니다. 이 벤치마크는 서로 연결된 세 가지 작업인 UX Judge, UX Eval, UX Recovery로 구성되며, 주요 중국 AI 어시스턴트의 7만 개 이상의 상호작용 로그에서 추출한 7,400개의 테스트 인스턴스를 포함합니다. 이 데이터셋은 8개의 시나리오, 83개의 도메인, 그리고 심각한 과제를 제기하는 다양한 실패 패턴을 다루며 실제 사용자 분포를 밀접하게 반영합니다. 26개의 최첨단 언어 모델 (frontier language models)을 대상으로 한 광범위한 실험은 모델이 사용자 경험을 얼마나 잘 인지하는지, 그리고 모델 성능의 향상이 더 나은 대화 참여 (dialogue engagement)에 어떻게 기여하는지에 대한 새로운 통찰을 제공합니다. 모델의 행동과 성능 격차에 대한 종합적인 분석을 통해, 우리는 사용자 피드백 예측이 학습 가능한 능력임을 보여주며, 실제 환경 (in-the-wild)의 피드백 신호로 학습된 보상 모델 (reward model)이 잘 보정된 정확도를 달성할 수 있음을 입증합니다. 나아가 우리는 LLM-as-a-judge 평가 프로토콜의 체계적인 편향을 기록하고, 사용자 경험에 직접적인 영향을 미치는 전형적인 응답 전략들을 비교합니다. UXBench는 새로운 평가 지형을 구축하며, 맞춤형 UX 최적화에 대한 더 큰 관심을 촉구하고, AI 어시스턴트의 성공을 결정짓는 사용자 중심 스케일링 법칙 (user-centric scaling law)에 기여합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0