프런티어 AI 평가의 공공 아카이브를 위한 베이지안 추론 및 의사결정 감사
요약
공공 AI 평가 아카이브의 데이터 편향과 선택적 시계열 문제를 베이지안 추론 관점에서 분석합니다. 리더보드 결과가 모델의 실제 성능을 어떻게 왜곡할 수 있는지 탐구하며, 이를 검증하기 위한 감사 프로토콜을 제안합니다.
핵심 포인트
- 리더보드 데이터는 보고 규칙과 벤치마크 수정에 의한 선택적 시계열임
- 베이지안 추론을 통해 동일한 결과라도 서로 다른 성능 이력을 가질 수 있음을 증명
- 프런티어 모델이 후보 선택을 인지할 경우 불확실성 보정 및 예측에 실패함
- 근거 없는 모델 주장을 반증하기 위한 아카이브 및 판결 프로토콜 필요
공공 AI 평가(Public AI evaluations)는 종종 최종 결과만을 보여주는 리더보드(leaderboards)로 읽히지만, 그 근저에 깔린 증거는 보고 규칙, 벤치마크 수정, 그리고 결측치(missingness)에 의해 형성된 선택적 시계열(selective time series)입니다. LiveBench와 Open LLM Leaderboard v2의 반복적인 공공 아카이브(public archives)는 주요한 종단적 기록(longitudinal record) 역할을 하며, LMArena는 선호도 스트레스 테스트(preference stress test)를 제공하고, GAIA와 tau-bench는 제한적인 에이전트 파일럿(agentic pilots)을 기여합니다. 이 아카이브들은 함께 하나의 베이지안 추론(Bayesian inference) 문제를 구체화합니다: 고정된 보고 관례 하에서, 1,000개 이상의 시스템에 대해 구축된 단 하나의 최종 결과 예시는 두 가지의 사전 최종 이력(pre-terminal histories)과 호환될 수 있으며, 동일한 최종 꼬리 모델(terminal-tail model) 하에서 천장(ceiling)의 0.05 이내에 도달하는 데 각각 23.03 또는 75.13의 시간이 소요될 수 있습니다. 합성 사후 확률(synthetic posterior) 비교에서, 행동 중심 진단(action-facing diagnostics)은 관찰 체계(observation regimes)에 따라 달라집니다. 후보 선택을 인지하는 프런티어 모델(candidate selection-aware frontier model)은 합성 복구(synthetic recovery), 객관적 아카이브 예측(objective-archive prediction), 선호도 전이(preference transfer), 그리고 불확실성 보정(uncertainty calibration)에 실패하며, 이에 따라 고정된 감사 게이트(fixed audit gates)는 해당 모델의 더 강력한 주장들을 거부합니다. 아카이브 및 판결 프로토콜(archive-and-adjudication protocol)은 공공 평가 이력을 재구성하고, 검증된 타이밍 경계(verified timing boundary)를 격리하며, 근거 없는 프런티어 주장들을 반증(falsifies)합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기