arXiv논문2026. 05. 22. 20:19

능력이 오히려 독이 될 수 있는가? 가장 중요한 순간에 더 유능한 언어 모델이 더 나쁜 예측을 하는 이유

요약

시계열 예측 문제에서 모델의 성능이 높을수록 오히려 예측력이 떨어지는 역스케일링(inverse scaling) 현상을 분석했습니다. 특히 금융이나 전염병과 같이 꼬리 위험(tail risk)이 중요한 상황에서 상위 꼬리 예측 오류가 두드러짐을 발견했습니다.

핵심 포인트

모델 규모와 사후 학습 모두 역스케일링 현상에 기여함
상위 꼬리(upper tail) 예측에서 공격적인 외삽 오류 발생
단일 임계값 지표는 이러한 예측 실패를 포착하지 못함
연속적이고 무제한적인 정확도 측정치 사용 권장

우리는 기초 시계열(time series)이 초선형 성장(superlinear growth)과 체제 변화(regime change)의 꼬리 위험(tail risk)을 보이는 예측 문제에서 LLM(Large Language Models)의 역스케일링(inverse scaling) 현상을 기록합니다. 이러한 구조는 금융 및 역학(epidemiology) 분야에서 흔히 나타납니다. 이러한 과업에서 더 유능한 모델일수록 더 나쁜 분포 예측(distributional forecasts)을 생성합니다. 이 패턴은 우리가 공개하는 오염 없는 시뮬레이션 세계 벤치마크인 ForecastBench-Sim (FBSim)에서, 매칭된 선형 대조군(linear control)을 가진 합성 SIR 전염병 예측 시 나타나며, COVID-19, 홍역, 주택 시장, 초인플레이션에 관한 실제 데이터셋에서도 재현됩니다. 분위수별 분해(per-quantile decomposition) 결과, 이러한 실패는 상위 꼬리(upper tail)에 집중되어 있음을 보여줍니다. 더 유능한 모델들은 성장의 공격적인 외삽(extrapolations)을 추적하기 위해 상위 꼬리를 위쪽으로 이동시키는 반면, 하위 꼬리(lower tail)는 그대로 유지합니다. Llama-3.1에 대한 패밀리 내 연구(within-family study)는 모델 규모(model scale)와 사후 학습(post-training) 모두가 이 효과에 독립적으로 기여함을 보여줍니다. 도메인 지식(Domain knowledge)은 보정(calibration)을 안정적으로 구제하지 못합니다. 이러한 역스케일링은 LLM 예측 벤치마크에서 흔히 사용되는 단일 임계값(single-threshold) 지표에서는 나타나지 않으며, 동일한 출력값에 대해 능력과 정확도 사이의 관계 부호를 반전시킵니다. 전통적인 컷오프(cutoffs)에서의 단일 임계값 점수 산정은 상위 꼬리의 비용을 놓치지만, 꼬리를 포함하는 점수 산정(tail-inclusive scoring)은 동일한 출력에 대해 능력과 정확도 사이의 관계 부호를 반전시킵니다. 우리는 LLM 예측 평가 시, 유계(bounded) 이진 임계값 지표와 함께 연속적이고(and unbounded) 무제한적인 정확도 측정치를 사용할 것을 권장합니다.

AI 자동 생성 콘텐츠

원문 바로가기

능력이 오히려 독이 될 수 있는가? 가장 중요한 순간에 더 유능한 언어 모델이 더 나쁜 예측을 하는 이유

요약

핵심 포인트

댓글