Cohen's kappa가 주마다 변동하는 이유 (그리고 그에 대한 해결책)
요약
LLM-as-judge 평가 시 Cohen's kappa 값이 변동하는 주요 원인이 라벨러의 행동이 아닌 교정 세트의 주변 분포(marginal distribution)에 있음을 설명합니다. 이를 해결하기 위해 층화된 롤링 윈도우 샘플링, 클래스별 지표 병행 보고, Wilson 신뢰 구간 활용을 제안합니다.
핵심 포인트
- Kappa 값의 변동은 라벨 분포의 변화(Pe 값의 이동)로 인해 발생할 수 있음
- 시간 창을 활용한 층화된 롤링 윈도우 샘플링으로 데이터 편향 방지
- Kappa 단일 수치 대신 클래스별 정밀도와 재현율을 함께 모니터링
- 소규모 데이터셋에서는 Wilson 신뢰 구간을 사용하여 통계적 강건성 확보
만약 LLM-as-judge의 calibration (교정) kappa 값이 주마다 변동하고, 이를 라벨러 (labeller)의 행동으로 설명할 수 없다면, 일반적인 원인은 라벨러가 아니라 calibration set (교정 세트)의 marginal distribution (주변 분포)에 있습니다.
간단히 복습해 보겠습니다. Cohen's kappa는 다음과 같습니다:
kappa = (Po - Pe) / (1 - Pe)
여기서 Po는 관찰된 일치도 (observed agreement)이며, Pe는 우연에 의한 기대 일치도 (expected agreement)입니다. Pe는 세트 내 라벨 (labels)의 marginal distribution (주변 분포)에 따라 달라집니다.
만약 지난주의 trace (추적 데이터) 중 70%가 라벨러 A에 의해 "acceptable (수용 가능)", 25%가 "good (좋음)", 5%가 "bad (나쁨)"로 라벨링되었다면 Pe는 하나의 특정 값이 됩니다. 만약 이번 주의 구성이 50/40/10이라면 Pe는 이동합니다. 라벨러들이 정확히 똑같은 일을 하고 있더라도 kappa 값은 변할 수 있습니다.
도움이 되는 세 가지 방법은 다음과 같습니다:
-
여러 시간 창(time windows)에 걸쳐 calibration set을 샘플링하십시오 (시간 버킷별로 층화된 rolling 4-week window 사용). 이는 특정 주의 트래픽 패턴이 Pe를 지배할 가능성을 줄여줍니다.
-
kappa와 함께 클래스별 precision (정밀도) 및 recall (재현율)을 보고하십시오. Kappa는 하나의 요약된 수치일 뿐이며, 클래스별 지표는 라벨러와 LLM 간의 불일치가 실제로 어디에 위치하는지 알려줍니다.
-
매우 작은 calibration set (100개 미만의 trace)의 경우, kappa를 점 추정치 (point estimate)로 취급하는 대신 클래스별 precision에 대해 Wilson confidence interval (Wilson 신뢰 구간)을 사용하십시오. Wilson interval은 소표본에 강건(robust)하지만, normal-approximation interval (정규 근사 구간)은 그렇지 않습니다.
calibration set 설계 및 소표본 수학에 관한 참고 문헌은 Cohen (1960) "A coefficient of agreement for nominal scales"와 Wilson (1927) "Probable inference, the law of succession, and statistical inference"에 있습니다. 두 문헌 모두 짧게 읽을 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기