당신의 LLM-as-judge 평가 세트는 너무 작습니다. 여기 수학적 근거가 있습니다.

당신의 작업에서 인간과 비교하여 LLM-as-judge를 보정(calibrate)하려면 얼마나 많은 인간 레이블링 예시가 필요할까요? 대부분의 팀이 사용하는 기본 답변은 "충분히"이며, 이는 보통 레이블링할 시간이 허락하는 만큼을 의미합니다. 그 답변은 특정하고 수학적으로 다룰 수 있는 방식으로 틀렸습니다.

요약하자면: 만약 당신의 judge가 인간에 대해 약 0.6 정도의 Cohen's kappa를 가지고 있고, 95% 신뢰 구간 (confidence interval, CI)의 폭이 0.10보다 넓지 않기를 원한다면, 약 200개의 쌍(paired) 레이블이 필요합니다. 만약 judge의 kappa가 약 0.4라면, 약 400개가 필요합니다. 제가 읽어본 대부분의 프로덕션 팀들은 50개를 사용하고 있는데, 이는 동일한 kappa 범위에서 0.20 또는 그 이상의 CI 폭을 갖게 됩니다.

방법론 (Method)

Cohen's kappa (Cohen 1960)는 우연을 조정한 평가자 간 일치도 (inter-rater agreement)를 측정합니다. 고전적인 해석 임계값 (Landis & Koch 1977)은 0.40에서 0.60 사이를 "보통 (moderate)", 0.60에서 0.80 사이를 "좋음 (good)"으로 취급합니다.

추정된 kappa의 분산은 표본 크기 (sample size)에 따라 줄어들지만, 선형보다 느리게 줄어듭니다. 고정된 실제 kappa에 대해, N을 두 배로 늘리면 CI는 대략 sqrt(2)만큼 좁아집니다. CI 폭을 절반으로 줄이려면 4배의 데이터가 필요합니다.

다음은 bootstrap-CI 계산 방식입니다:

import numpy as np
from sklearn.metrics import cohen_kappa_score

...

동일한 예시에 대해 두 judge 사이의 쌍 비교 (paired comparison)를 수행할 때는 McNemar's test가 적절한 통계량입니다 (kappa를 재적용하는 것이 아닙니다). 구현 방식은 다음과 같습니다:

from statsmodels.stats.contingency_tables import mcnemar

def compare_judges(judge_a_scores, judge_b_scores, human_scores):
...

유계 표본 크기 문제 (The bounded sample size problem)

CI 폭은 kappa 추정치가 운영상 유용한지 여부를 결정하는 수치입니다. CI가 [0.45, 0.85]인 0.65의 점 추정치 (point estimate)는 거의 아무런 정보도 제공하지 못합니다. 반면 CI가 [0.60, 0.70]인 0.65의 점 추정치는 해당 judge가 신뢰할 수 있게 "좋음" 상태임을 알려줍니다.

프로덕션 드리프트 탐지 (production drift detection)를 위해서는 드리프트가 샘플링 노이즈 (sampling noise)와 구별될 수 있을 만큼 충분히 좁은 CI가 필요합니다. CI 폭이 0.10 미만이면 0.10 포인트의 하락을 안정적으로 감지할 수 있지만, CI 폭이 0.20이면 불가능합니다.

실제 kappa	CI 폭 0.10을 위한 N	CI 폭 0.20을 위한 N
0.3	약 450	약 115
...
이것들은 몬테카를로 (Monte Carlo) 추정치이며, 폐쇄형 도출식 (closed-form derivations)이 아닙니다. 정확한 공식 (Fleiss 1981)은 유병률 (prevalence) 및 편향 (bias) 항을 포함합니다.

실제로 사용할 N 값

def recommend_n(target_kappa: float,
                target_ci_width: float = 0.1) -> int:
    """몬테카를로 시뮬레이션에서 조회함; 폐쇄형 식이 아님."""
...

아직 판사 (judge)의 kappa를 모른다면, 초기 보정 (calibration)을 위해 N=200으로 시작하세요. 관찰된 kappa를 바탕으로 필요한 N을 재추정하고, 결과값이 낮게 나왔다면 레이블을 더 추가하세요.

세 가지 프로덕션 판사, 세 가지 결정

판사 A (환불 에이전트의 사실 정확도). 초기 N=200. 관찰된 kappa 0.61 [CI 0.54, 0.68]. 프로덕션 투입 3주 후, 새로운 200개 예시 샘플에 대한 kappa가 0.39 [CI 0.30, 0.48]로 하락했습니다. 입력 데이터의 분포 변화 (Distribution shift)가 발생했습니다. 두 CI 모두 좁았기 때문에 이 하락을 감지할 수 있었습니다.

판사 B (고객 지원 톤 점수 산정). 초기 N=200, 관찰된 kappa 0.72 [CI 0.67, 0.78]. 두 달 동안 안정적이었습니다.

판사 C (코드 리뷰 품질 점수 산정). 초기 N=200, 관찰된 kappa 0.31 [CI 0.22, 0.40]. 사용하기에는 너무 낮습니다. 인간 전용 리뷰로 되돌렸습니다.

만약 제가 N=50을 사용했다면, 세 가지 결정 중 두 가지는 모호했을 것입니다.

한계점

kappa는 단일 기준 지표입니다. 프로덕션 판사들은 종종 여러 기준을 점수화하므로, 별도의 CI를 가진 기준별 kappa를 사용하는 것이 올바른 접근 방식입니다.

유병률 (Prevalence)은 kappa 분산에 영향을 미칩니다. 층화 추출 (Stratified sampling)이 도움이 됩니다. 저의 몬테카를로 방식은 클래스가 균형 잡혀 있다고 가정합니다.

부트스트랩 (Bootstrap) CI는 근사치입니다. N이 50 미만인 경우, Fleiss의 폐쇄형 식을 사용하거나 데이터가 충분하지 않음을 인정해야 합니다.

이것은 타당성 (validity)이 아니라 일치도 (agreement)에 관한 것입니다. 판사는 그 자체로 틀린 인간과 높은 kappa를 가질 수 있습니다. 벤치마크 타당성에 관한 Sara Hooker의 글이 관련 선행 연구입니다.

미결 과제

프로덕션 트레이스(production traces)에 대한 보정 세트 크기(calibration set size)와 드리프트 탐지 민감도(drift-detection sensitivity) 사이의 관계. 나의 가설은 민감도가 $1/ ext{sqrt}(N)$을 따른다는 것이지만, 이를 공식적으로 유도하지는 못했습니다.

재라벨링(re-labeling)을 위한 적절한 주기. 실무적으로는 주 단위가 효과적이지만, 재라벨링 주기와 모델 업데이트 주기 사이의 폐쇄형 관계(closed-form relationship)가 명시적으로 기술된 사례는 보지 못했습니다.

인간의 라벨을 부분적으로 대체하는 교차 판사 일치도(Cross-judge agreement). 관련 문헌이 매우 부족합니다. Farquhar et al. 2024가 유사하지만, 이는 판사 보정(judge calibration)이 아닌 환각 탐지(hallucination detection)에 관한 것입니다. Zheng et al. (LMSYS)이 이 방향을 암시하고 있으나 실험을 체계적으로 수행하지는 않았습니다. 혹시 인용할 만한 자료가 있다면 감사하겠습니다.

벤치마크 타당성(benchmark validity)에 미치는 영향. 발표된 대부분의 LLM-as-judge 벤치마크는 판사 간의 0.05~0.10점 차이를 탐지하는 데 필요한 수준보다 작은 표본 크기로 kappa 점 추정치(point estimates)를 보고합니다. 발표된 순위는 샘플링 노이즈(sampling noise) 범위 내에 있을 수 있습니다. 이에 관한 문헌적 논의는 아직 정립되지 않았습니다.