본문으로 건너뛰기

© 2026 Molayo

arXiv중요논문2026. 04. 24. 21:57

LLM 벤치마크의 한계와 사용자 중심 평가 시스템 제안

요약

현재 LLM 리더보드는 벤치마크 설계자가 설정한 우선순위에 의해 모델을 비교하며, 단일 점수는 모델의 다양한 성능 특성을 가립니다. 본 논문은 LMArena (구 Chatbot Arena) 데이터셋을 분석하여 이러한 평가 편향성을 지적하고, 사용자가 직접 프롬프트 슬라이스(prompt slices)를 선택하고 가중치를 부여해 원하는 방식으로 모델 순위를 확인할 수 있는 인터랙티브 시각화 인터페이스를 제안합니다. 이는 LLM 평가의 투명성과 맥락 적합성을 높여, 실제 사용자 요구에 맞는 새로운 리더보드 설계 방향을 제시합니다.

핵심 포인트

  • LLM 리더보드는 벤치마크 설계자의 우선순위에 의해 결정되어, 실제 사용자의 다양한 목표와 제약 조건을 반영하지 못하는 한계가 있습니다.
  • LMArena 데이터셋 분석 결과, 해당 벤치마크는 특정 주제에 편향되어 있으며, 프롬프트 유형별로 모델 순위가 다르게 나타납니다.
  • 제안된 인터랙티브 시각화 도구는 사용자가 평가 우선순위를 직접 정의하고 가중치를 부여하여, 맥락에 맞는 맞춤형 모델 비교를 가능하게 합니다.
  • 이러한 사용자 중심의 접근 방식은 LLM 평가의 투명성을 높이고, 보다 실질적인 배포 결정을 지원할 수 있습니다.

Who Defines "Best"? Towards Interactive, User-Defined Evaluation of LLM Leaderboards

LLM leaderboards are widely used to compare models and guide deployment decisions. However, leaderboard rankings are shaped by evaluation priorities set by benchmark designers, rather than by the diverse goals and constraints of actual users and organizations. A single aggregate score often obscures how models behave across different prompt types and compositions. In this work, we conduct an in-depth analysis of the dataset used in the LMArena (formerly Chatbot Arena) benchmark and investigate this evaluation challenge by designing an interactive visualization interface as a design probe. Our analysis reveals that the dataset is heavily skewed toward certain topics, that model rankings vary across prompt slices, and that preference-based judgments are used in ways that blur their intended scope. Building on this analysis, we introduce a visualization interface that allows users to define their own evaluation priorities by selecting and weighting prompt slices and to explore how rankings change accordingly. A qualitative study suggests that this interactive approach improves transparency and supports more context-specific model evaluation, pointing toward alternative ways to design and use LLM leaderboards.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0