arXiv논문2026. 06. 30. 13:56

저비용 통계 추정기로서의 대규모 언어 모델(LLM) 활용: 인간 응답 데이터 대상

요약

본 연구는 LLM이 인간 응답 데이터를 대상으로 저비용 통계 추정기로서 기능할 수 있음을 수학적으로 증명합니다. LLM이 특정 조건 하에서 베이즈 최적 위험을 달성하며, 표현 편향과 최적화 오차를 통해 추정 오차를 분석하는 이론적 프레임워크를 제시합니다.

핵심 포인트

LLM이 조건부 평균 의존 추론에서 베이즈 최적 위험을 달성함을 증명
추정 오차를 표현 편향과 최적화 오차로 분해하여 분석
양방향 르 캉 결핍 분석을 통한 제한적 기능적 위험 등가성 확립
인간 실험을 대체할 수 있는 저비용·고효율 통계 추론 가능성 제시

사회 및 행동 과학 전반에 걸친 정량적 연구는 비용이 많이 들고, 속도가 느리며, 표본 편향(sampling bias)이 발생하기 쉬운 인간 피험자 실험에 의존합니다. 본 연구에서는 사전 학습된 대규모 언어 모델(Large Language Models, LLM)이 제곱 손실(squared loss) 하에서 조건부 기댓값(conditional expectations)에 대한 위험 등가 추정치(risk-equivalent estimators)를 유도함을 보여주며, 이를 통해 제한적 기능적 위험 등가성(restricted functional risk equivalence)을 확립합니다. 즉, 제곱 손실 하에서 LLM은 데이터가 조건부 평균(conditional mean)을 통해서만 의존하는 모든 추론에 대해, 조건부 기댓값의 제곱 손실 예측에 대한 베이즈 최적 위험(Bayes optimal risk)과 일치하는 위험을 갖는 추정치를 유도합니다. 우리는 LLM을 독립 항등 분포(i.i.d.) 데이터로 학습된 오설정된 기능적 추정치(misspecified functional estimator) $T(\hat{P}n)$로 공식화하고, 추정 오차를 표현 편향(representation bias) $ε{\mathrm{rep}}$과 최적화 오차(optimization error)로 분해합니다. 또한 완만한 정규성 조건(mild regularity conditions) 하에서 LLM의 기대 오차가 기약 모집단 분산(irreducible population variance)에 표현 편향의 제곱을 더한 값으로 수렴하며, 표현 편향은 핀스커 부등식(Pinsker inequality)에 의해 유계(bounded)됨을 증명합니다. 식별 오차(identifiability error) $δ$는 유효 편향(effective bias)으로 전파되어 점근적 위험 하한(asymptotic risk floor)을 팽창시킵니다. 우리는 양방향 르 캉 결핍 분석(bidirectional Le Cam deficiency analysis)을 통해 제한적 기능적 위험 등가성을 확립합니다. 즉, 순방향 결핍(forward deficiency)은 점근적으로 소멸하는 반면 역방향 결핍(reverse deficiency)은 정확히 0입니다. 우리는 유한 표본 집중 경계(finite-sample concentration bounds)와 명시적인 결정 규칙을 포함한 교정 프로토콜(calibration protocol)을 제공합니다. 이 결과는 정밀하고 증명 가능한 진술입니다: 잘 교정된 LLM은 명시적인 범위 조건에 의해 제한되는 조건부 평균 의존 추론에 대해 베이즈 최적 위험을 달성합니다. 실제 응용 측면에서 이는 조건이 충족되고 모델이 잘 교정된 경우, 대규모 언어 모델이 원래 인간 실험에 의존했던 많은 예측 및 의사 결정 작업에서 더 낮은 비용으로 최적에 가까운 통계적 추론을 근사하며 사용될 수 있음을 의미합니다.

AI 자동 생성 콘텐츠

원문 바로가기

저비용 통계 추정기로서의 대규모 언어 모델(LLM) 활용: 인간 응답 데이터 대상

요약

핵심 포인트

댓글