arXiv논문2026. 05. 26. 12:50

효율적인 벤치마킹은 단지 특징 선택(Feature Selection)과 다중 회귀(Multiple Regression)일 뿐이다

요약

LLM 평가 비용을 절감하기 위해 벤치마크 질문의 일부 서브셋만으로 전체 점수를 예측하는 효율적인 벤치마킹 기술을 제안합니다. 다중 회귀와 mRMR 알고리즘을 활용하여 기존 방식보다 낮은 예측 오차와 높은 상관관계를 달성했습니다.

핵심 포인트

서브셋 질문을 통한 LLM 평가 계산 비용 절감
커널 리지 회귀를 통한 예측 성능 개선
mRMR 알고리즘을 활용한 최적의 질문 서브셋 선택
기존 확률 모델 방식 대비 빠른 속도와 높은 일관성 확보

효율적인 벤치마킹 (Efficient benchmarking) 기술은 벤치마크 질문의 일부 서브셋(subset)만을 사용하여 전체 벤치마크 점수를 예측함으로써, LLM (Large Language Models) 평가에 드는 계산 비용을 낮추는 것을 목표로 합니다. 이 문제를 특징 선택 (Feature Selection)을 포함한 다중 회귀 (Multiple Regression)의 사례로 재구성함으로써, 우리는 기존의 효율적인 벤치마킹 방법들이 예측 단계에서 커널 리지 회귀 (Kernel Ridge Regression)를 사용하는 것만으로도 크게 개선될 수 있음을 발견했습니다. 또한, 최소 중복 최대 관련성 (Minimum Redundancy Maximum Relevance, mRMR)이라고 불리는 정보 이론적 특징 선택 (Information-theoretic feature-selection) 알고리즘을 사용하면, 예측에 가장 유용할 질문 서브셋을 선택함으로써 이러한 방법들을 더욱 개선할 수 있습니다. 데이터가 매우 부족한 환경을 제외하고, 이러한 접근 방식은 이진(binary) 및 연속(continuous) 지표를 사용하는 다양한 벤치마크 전반에 걸쳐 일관되게 더 작은 예측 오차 (MAE 및 RMSE 모두에서)와 예측 점수 및 실제 점수 간의 더 높은 순위 상관관계 (Spearman $ρ$ 및 Kendall $τ$ 모두에서)를 달성합니다. 더욱이, mRMR 서브샘플링 (subsampling)은 경쟁 방법들(종종 확률 모델을 적합시키거나 클러스터링 알고리즘을 실행해야 하는 방식)보다 훨씬 빠르며, 서로 다른 랜덤 시드 (random seeds) 또는 훈련 데이터 분할 하에서도 동일한 질문을 선택할 가능성이 더 높습니다. 튜토리얼 코드는 https://github.com/sambowyer/mrmr_eval 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

효율적인 벤치마킹은 단지 특징 선택(Feature Selection)과 다중 회귀(Multiple Regression)일 뿐이다

요약

핵심 포인트

댓글