arXiv중요논문2026. 04. 24. 21:57

누가 '최고'를 정의하는가? 상호작용적이고 사용자 정의 가능한 LLM 리더보드 평가 방향

요약

현재 LLM 리더보드는 벤치마크 설계자가 설정한 우선순위에 의해 모델을 비교하며, 단일 점수는 모델의 다양한 성능 특성을 가립니다. 본 논문은 LMArena (구 Chatbot Arena) 데이터셋을 분석하여 이러한 평가 편향성을 지적하고, 사용자가 직접 프롬프트 슬라이스(prompt slices)를 선택하고 가중치를 부여해 원하는 방식으로 모델 순위를 확인할 수 있는 인터랙티브 시각화 인터페이스를 제안합니다. 이는 LLM 평가의 투명성과 맥락 적합성을 높여, 실제 사용자 요구에 맞는 새로운 리더보드 설계 방향을 제시합니다.

핵심 포인트

LLM 리더보드는 벤치마크 설계자의 우선순위에 의해 결정되어, 실제 사용자의 다양한 목표와 제약 조건을 반영하지 못하는 한계가 있습니다.
LMArena 데이터셋 분석 결과, 해당 벤치마크는 특정 주제에 편향되어 있으며, 프롬프트 유형별로 모델 순위가 다르게 나타납니다.
제안된 인터랙티브 시각화 도구는 사용자가 평가 우선순위를 직접 정의하고 가중치를 부여하여, 맥락에 맞는 맞춤형 모델 비교를 가능하게 합니다.
이러한 사용자 중심의 접근 방식은 LLM 평가의 투명성을 높이고, 보다 실질적인 배포 결정을 지원할 수 있습니다.

누가 '최고'를 정의하는가? 상호작용적이고 사용자 정의 가능한 LLM 리더보드 평가 방향

LLM(Large Language Model) 리더보드는 모델을 비교하고 배포 결정을 내리는 데 널리 사용됩니다. 하지만 리더보드 순위는 실제 사용자 및 조직의 다양한 목표와 제약 조건이 아닌, 벤치마크 설계자가 설정한 평가 우선순위에 의해 형성되는 경향이 있습니다. 단일 집계 점수는 모델이 다양한 프롬프트 유형(prompt types)과 구성(compositions)에 걸쳐 어떻게 작동하는지를 종종 가립니다. 본 연구에서는 LMArena (구 Chatbot Arena) 벤치마크에 사용된 데이터셋을 심층적으로 분석하고, 디자인 프로브(design probe)로서 상호작용적 시각화 인터페이스를 설계하여 이러한 평가 문제를 조사합니다. 우리의 분석 결과, 해당 데이터셋이 특정 주제로 크게 편향되어 있으며, 모델 순위가 프롬프트 슬라이스(prompt slices)에 따라 달라지고, 선호도 기반 판단(preference-based judgments)이 의도된 범위를 모호하게 만드는 방식으로 사용되고 있음을 밝혀냈습니다. 이러한 분석을 바탕으로, 우리는 사용자에게 프롬프트 슬라이스를 선택하고 가중치를 부여하여 자체적인 평가 우선순위를 정의할 수 있게 하고, 그에 따라 순위가 어떻게 변화하는지 탐색할 수 있는 시각화 인터페이스를 소개합니다. 질적 연구(qualitative study)는 이러한 상호작용적 접근 방식이 투명성을 향상시키고 보다 상황별(context-specific) 모델 평가를 지원함을 시사하며, LLM 리더보드를 설계하고 사용하는 대안적인 방식을 제시합니다.

AI 자동 생성 콘텐츠

원문 바로가기

누가 '최고'를 정의하는가? 상호작용적이고 사용자 정의 가능한 LLM 리더보드 평가 방향

요약

핵심 포인트

누가 '최고'를 정의하는가? 상호작용적이고 사용자 정의 가능한 LLM 리더보드 평가 방향

댓글