arXiv논문2026. 06. 16. 11:51

UXBench: LLM이 생성한 UX 비평의 실행 가능성(Actionability) 측정

요약

LLM이 생성한 UX 비평의 실행 가능성을 측정하기 위한 새로운 벤치마크인 UXBench를 제안합니다. 브라우저 탐색과 상호작용 증거 수집을 통해 모델이 생성한 UX 보고서가 실제 인터페이스 개선에 얼마나 유용한지 평가합니다.

핵심 포인트

UX 비평의 실행 가능성을 측정하는 UXBench 벤치마크 소개
커버리지 게이트 브라우저 탐색을 통한 상호작용 기반 평가
7가지 루브릭 차원에 따른 구조화된 UX 보고서 생성
프런티어 모델들의 UX 심판 능력 및 실행 가능성 차이 확인

대규모 언어 모델(LLMs)은 인터페이스를 검사하고, 사용성 문제를 진단하며, 수정을 제안하는 UX 심판(UX judges)으로서 점점 더 많이 배치되고 있습니다. 하지만 결과로 도출된 비평(critiques)이 이질적인 제품 표면(product surfaces) 전반에 걸쳐 신뢰할 수 있고 실행 가능한지(actionable)를 측정하는 통제된 벤치마크는 아직 없습니다. 우리는 상호작용에 기반한(interaction-grounded) UX 심판으로서의 LLM을 평가하기 위한 벤치마크인 UXBench를 소개합니다. UXBench는 10개의 제품 표면 제품군(product-surface families)에 걸쳐 실행 가능한 로컬 우선(local-first) 웹 피스처(web fixtures)로 구성되며, 모델이 보고하기 전에 상호작용 증거를 수집하도록 강제하는 커버리지 게이트 브라우저 탐색(coverage-gated browser exploration)과 결합되어 있습니다. 각 심판 모델은 7가지 루브릭(rubric) 차원에 대해 구조화된 UX 보고서를 생성하며, 보고서의 품질은 고정된 다운스트림 수정 에이전트(downstream repair agent)가 해당 비평을 바탕으로 인터페이스를 개선할 수 있는지 여부에 따라 측정됩니다. 우리는 자동화된 수정 향상 프로토콜(automated repair-lift protocol)과 블라인드 인간 검증 연구(blind human validation study) 모두에서 8개의 프런티어 모델(frontier models)을 평가합니다. 결과에 따르면 UX 심판 능력은 포화 상태도 아니고 단일 차원적이지도 않습니다. 모델들은 보고서의 실행 가능성(actionability)에서 의미 있는 차이를 보이며, 뚜렷한 루브릭 수준의 수정 시그니처(repair signatures)를 나타내고, 피스처 수준의 신뢰도(reliability)가 다르며, 표면 카테고리에 따라 선두 위치가 바뀝니다.

AI 자동 생성 콘텐츠

원문 바로가기

UXBench: LLM이 생성한 UX 비평의 실행 가능성(Actionability) 측정

요약

핵심 포인트

댓글