벤치마크를 조작하는 것이 얼마나 어려운가? 리더보드 강건성에 대한 사회적 선택 이론 분석
요약
벤치마크 순위를 높이기 위한 '벤치마크 게이밍'을 사회적 선택 이론의 관점에서 분석한 연구입니다. 특정 모델이 1위를 차지하도록 데이터셋을 선택하는 문제가 NP-hard임을 증명하고, 다양한 평가 지표별 강건성을 분석했습니다.
핵심 포인트
- 벤치마크 특화 학습을 선거 조작의 '이동 매수' 문제로 정의
- Borda count 및 평균 승률 하에서 조작 문제가 NP-hard임을 증명
- 평균 승률(Mean win rate)이 조작하기 가장 어려운 지표임을 확인
- HELM 및 Open LLM Leaderboard 데이터를 통한 실증적 검증
멀티태스크 벤치마크 (Multi-task benchmarks)는 머신러닝 연구의 핵심 축이 되었으나, 그 영향력이 커짐에 따라 특정 모델의 리더보드 (Leaderboard) 순위를 높이기 위한 전략적 행동인 벤치마크 게이밍 (Benchmark gaming)을 조장하고 있습니다. 데이터셋을 투표자로, 모델을 후보자로 간주하여, 우리는 벤치마크 데이터를 학습에 포함시키는 벤치마크 특화 학습 (Benchmark-specific training)을 선거 조작 (Election manipulation)의 한 형태로 고찰합니다. 임의의 서열 벤치마크 (Ordinal benchmark)에 대해, 타겟 모델이 1위를 차지할 수 있도록 학습할 데이터셋을 선택하는 문제는 계산 사회 선택 (Computational social choice) 분야의 조작 문제 중 하나인 이동 매수 (Shift bribery)에 해당합니다. 이러한 식별을 활용하여, 우리는 벤치마크 특화 학습 문제가 Borda count 및 평균 승률 (Mean win rate) 하에서 NP-hard임을 보여줍니다. 이러한 최악의 경우 (Worst-case) 관점을 보완하기 위해, 우리는 모델 개발자가 특정 리더보드에서 1위를 하기 위해 학습에 반드시 포함해야 하는 최소 데이터셋 수인 인스턴스 수준의 강건성 (Instance-level robustness)을 도입하고, 산술 평균 (Arithmetic mean), 중앙값 (Median), 평균 승률 (Mean win rate) 및 쌍체 다수결 (Pairwise majority) 하에서의 수식을 도출합니다. 우리는 HELM 하의 MMLU와 Open LLM Leaderboard 하의 BIG-Bench Hard (BBH)에서 이 수식들을 평가합니다. 두 평가 세트 모두에서 평균 승률 (Mean win rate)이 조작하기 가장 어려웠습니다. 이러한 격차는 BBH (24개 태스크, 4507개 모델)에서 명확하게 나타나는데, 여기서 평균 승률의 중앙값 강건성은 22개 태스크 (92%)인 반면, 산술 평균은 13개 (54%), 중앙값 및 쌍체 다수결은 12개 (50%)였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기