arXiv논문2026. 06. 04. 12:04

노아의 방주 지식 인덱스 (Knowledge Index of Noah's Ark)

요약

LLM의 학문적 대표성 결여와 주석 작업의 품질 문제를 해결하기 위한 새로운 지식 벤치마크 KINA를 제안합니다. 261개 학문 분야를 대상으로 모델 성능을 평가하며, 보너스 기반 토너먼트 방식이 리뷰 품질 향상에 효과적임을 증명합니다.

핵심 포인트

261개 학문 분야를 포괄하는 KINA 벤치마크 도입
전문가 앵커 기반의 학문적 대표성 구현 방법론 제시
보너스 지급 방식이 기존 균등 지급 방식보다 높은 리뷰 품질 보장
Gemini-3.1-Pro-Preview가 KINA 테스트에서 최상위 기록
모델 성능의 계층적 구조(Frontier vs Strong-model) 확인

LLM (Large Language Models)을 위한 지식 벤치마크는 세 가지 문제에 직면해 있습니다: 학문적 대표성 (disciplinary representativeness)을 실행 가능하게 구현하지 못하는 확장 중심의 설계, 게으른 합의 (lazy consensus)를 허용하는 균등 지급 방식의 주석 작업 (flat-payment annotation), 그리고 제한된 테스트 예산 하에서의 검증되지 않은 순위 불안정성입니다. 우리는 261개의 세분화된 학문 분야에 걸친 899개 항목의 벤치마크인 KINA를 소개하며, 두 가지 공식적인 결과를 제시합니다. 첫째, 우리는 대표성을 전문가가 도출한 앵커 (anchors)에 대한 커버리지 스타일의 목표로 설정하고, 대리 지표 (proxy)를 통해 학문적 대표성을 실행 가능하게 구현하여 (1-1/e) 탐욕적 근사치 (greedy approximation)를 산출합니다 (Proposition 1). 이 보장은 인구 통계학적 대표성이 아닌 대리 지표에 적용됩니다. 둘째, 우리는 보너스 지급 토너먼트 (bonus-on-bar tournament)가 공개된 리뷰 품질 측면에서 균등 지급 방식보다 약하게 FOSD (First-Order Stochastic Dominance) 우위에 있음을 증명하며, 이때 유인 일치성 (incentive-compatibility) 임계값은 B > Delta C / Delta p_min 입니다 (Theorem 1). 13개 연구소의 42개 모델을 평가한 결과, 최상위 모델인 Gemini-3.1-Pro-Preview가 53.17%를 기록했으며, Claude-Opus-4.6이 49.92%, GPT-5.4가 48.55%로 그 뒤를 이었으며, 포화 상태(saturation)까지는 여전히 상당한 여유가 남아 있습니다. 전체 리더보드는 매끄러운 전체 순서라기보다는 계층적 구조를 보여줍니다: 48% 위에 소수의 프런티어 계층 (frontier tier)이 존재하고, 약 38-45%에 걸쳐 밀집된 강력한 모델 계층 (strong-model tier)이 형성되어 있으며, 성능이 낮은 모델들은 10%의 확률 기준선(chance baseline)을 약간 상회하는 수준에 머물러 있습니다. 도구 증강 (Tool augmentation)은 5가지 도구 사용 평가 전반에 걸쳐 최대 5.17포인트를 추가하며, 그 이득은 모델마다 크게 다릅니다. 우리는 제한된 예산의 분산 (bounded-budget variance)을 명시적으로 드러내고 인접한 순위에 대한 과도한 해석을 방지하기 위해 부트스트랩 순위 안정성 (bootstrap ranking-stability) 통계를 보고합니다.

AI 자동 생성 콘텐츠

원문 바로가기

노아의 방주 지식 인덱스 (Knowledge Index of Noah's Ark)

요약

핵심 포인트

댓글