Dev.to헤드라인2026. 06. 16. 02:17

LLM 평가를 위한 검정력 분석: 5%의 성능 저하를 감지하려면 평가 세트가 얼마나 커야 하는가?

요약

LLM 평가 세트의 크기가 실제 성능 저하를 감지할 수 있는 통계적 검정력(power)을 갖추었는지 분석합니다. 5%의 성능 하락을 포착하기 위해서는 기존보다 훨씬 큰 규모의 평가 세트가 필요함을 통계적 계산을 통해 제시합니다.

핵심 포인트

평가 세트 크기는 단순히 보유한 데이터가 아닌 감지하려는 성능 변화 폭에 따라 결정되어야 함
5% 성능 저하를 감지하려면 기존 방식보다 약 4배 더 큰 평가 세트가 필요함
검정력과 평가 비용(토큰 소모) 사이의 트레이드오프를 고려한 최적의 크기 설정이 중요함
불확실성을 포함한 결과 보고를 통해 미세한 변화로 인한 불필요한 조사를 방지해야 함

요약(TL;DR): 대부분의 평가 세트는 실제로 무엇을 감지할 수 있는지에 따라 결정되는 것이 아니라, "그냥 가지고 있던 것"에 의해 크기가 결정됩니다. 만약 평가 세트가 50개의 트레이스(traces)이고 통과율(pass rate)의 5% 하락을 포착하려 한다면, 이는 검정력(power)이 부족한 상태입니다. 성능 저하가 샘플링 노이즈(sampling noise) 속에 숨겨져 있을 가능성이 높아, 결과가 정상(green)으로 표시된 채 그대로 배포될 수 있습니다. 두 줄짜리 검정력 계산(power calculation)을 통해 실제로 필요한 크기를 알 수 있으며, 저희의 계산 결과는 기존에 실행하던 것보다 대략 4배 더 큰 규모가 필요하다고 나왔습니다.

아무도 계산하지 않는 수치

우리는 어떤 지표(metric)를 사용할지에 대해 논쟁하지만, 그 이전의 질문인 "이 평가 세트가 얼마나 큰 변화를 감지할 수 있는가"는 건너뜁니다. 모든 실험과 마찬가지로 평가 세트에도 감지 하한선(detection floor)이 존재합니다. 이 하한선 아래에서는 실제 성능 저하와 운 나쁜 샘플링 결과가 동일해 보이므로, 결과가 정상으로 나온다 해도 아무런 의미가 없습니다.

두 줄짜리 검정력 확인

합격/불합격(pass/fail) 평가의 경우, 80%의 검정력(power)으로 $p_1$에서 $p_2$로의 하락을 감지하는 것은 표준적인 이비율 계산(two-proportion calculation)입니다:

from statsmodels.stats.power import NormalIndPower
from statsmodels.stats.proportion import proportion_effectsize

...

50개의 트레이스(traces)로는 약 15% 포인트의 변동만을 안정적으로 포착할 수 있었습니다. 이는 어차피 눈에 띌 만한 재앙적인 수준이지, 실제로 신경 써야 하는 점진적인 변화(slow drift)가 아닙니다.

우리가 변경한 점

우리가 관심을 두는 가장 작은 성능 저하(5% 포인트 하락)에 맞춰 평가 세트의 크기를 조정하여 하한선을 설정했습니다. 또한 희귀하지만 중요한 슬라이스(slices)들이 묻히지 않도록 층화(stratified)했습니다. 평가 결과는 불확실성(uncertainty)과 함께 보고하여, 1% 포인트의 변화로 인해 조사가 트리거되는 일을 방지했습니다.

솔직한 주의사항

평가 세트가 커질수록 비용이 더 많이 듭니다(모든 트레이스는 판정 토큰(judge tokens)을 소모합니다). 따라서 감지력(detection power)과 평가 비용 사이에는 실제적인 긴장 관계가 존재합니다. 정답은 "엄청나게 크게 만드는 것"이 아니라, "실제로 타격을 줄 수 있는 가장 작은 성능 저하에 맞춰 크기를 정하되, 그보다 작게 만들지 않는 것"입니다. 저희의 경우 수백 개 정도였지만, 안전이 중요한 체크(safety-critical check)라면 수천 개가 될 수도 있습니다.

열린 질문

이 검정력 계산 (power calc)은 독립 항등 분포 (i.i.d.) 추적 (traces)을 가정하지만, 실제 운영 트래픽은 버스트성 (bursty)을 띠고 상관관계가 있으며 드리프트 (drifting)가 발생합니다. 상관관계가 있는 평가 세트 (eval set)에 대해 유효 표본 크기 (effective sample size)를 계산할 수 있는 깔끔한 방법이 없기 때문에, 저는 "수백 개"를 하한선으로 간주하고 그보다 여유 있게 설정합니다. 만약 상관관계가 있는 평가 트래픽에 대해 적절하게 검정력 분석 (power analysis)을 수행해 본 경험이 있다면, 그 방법을 꼭 읽어보고 싶습니다.

AI 자동 생성 콘텐츠

원문 바로가기