수요 예측에서의 절단 문제 ③ 이론편·후편 ─ Tobit 모델의 수리적 구조와 최우추정

전 5회 시리즈 중

제 3회. 지난 회: 제 2회 (이론편·전편) / 다음 회: 제 4회 (구현편·기존 상품). 전체 구성은 제 1회 서두를 참조.

1. 도입: 왜 이론편을 한 번 더 다루는가

지난 회에서는 Tobit 모델이 OLS (Ordinary Least Squares, 최소제곱법)보다 진값(true value)에 가까운 계수를 반환함을 구현을 통해 확인했습니다. 하지만 "왜 그렇게 되는가"를 파악해 두면, 데이터의 특성이 모델의 전제 조건과 충돌할 때 이를 알아차릴 수 있고, 라이브러리 출력값의 이상치를 디버깅할 수 있으며, 고객이나 상사에게도 설명할 수 있습니다.

본 기사에서는 Breen (1996)[3]의 제 2장 (Tobit 모델) · 제 3장 (샘플 선택) · 제 4장 (다중 임계값)의 흐름에 따라 Tobit의 내부 구조를 구축합니다. 전체상을 조망하려면 Amemiya (1984)[4]의 서베이 논문도 참고가 됩니다.

수식 자체를 쫓는 것이 어렵다면, "각 항이 무엇을 나타내는가"만 파악해도 충분합니다.

2. 잠재 변수 (latent variable)의 개념

Tobit 모델을 이해하는 데 있어 가장 중요한 개념은 **잠재 변수 (latent variable)**입니다.

관측되는 매출은 매장에 방문했을 때, 만약 재고가 무한히 있었다면 구매했을 양이며, 원리적으로는 마이너스도 허용하는 연속값입니다 (Tobin[5]의 내구재 소비 지출 문맥에서는,

이

여기서

다음으로, 관측되는

여기서 중요한 것은, Tobit 모델은 "관측된 직접적인 회귀 모델을 적용하는 것이 아니다"라는 점입니다. 관측된 y = Xb + u와 같은 단순한 OLS와는 수학적 구조가 근본적으로 다릅니다.

3. 최우추정법 (MLE) 간단 복습

다음으로, Tobit을 추정하는 도구인 **최우추정법 (Maximum Likelihood Estimation, MLE)**을 간단히 복습합니다. 이미 MLE에 익숙하신 분은 다음 절로 넘어가셔도 좋습니다.

MLE의 사고방식은 다음 한 마디로 요약됩니다.

조금 더 정중하게 말하자면. "어떤 파라미터에 대한 우도 함수 (likelihood function)

여기서

실제 계산에서는 곱셈은 수치적으로 다루기 어렵기 때문에, 로그를 취해 합산으로 바꿉니다:

이를 최우추정량 (Maximum Likelihood Estimator)

MLE의 바람직한 성질

Breen (1996)[3:1] 제 2장 제 3절에서도 지적하듯이, MLE에는 다음과 같은 점근적 (샘플 사이즈가 커질 때) 성질이 있습니다:

일치성 (Consistency): 샘플 사이즈가 커지면 추정치는 진값에 확률적으로 가까워진다.
점근 정규성 (Asymptotic Normality): 샘플 사이즈가 클 때 추정치는 정규분포로 근사할 수 있다.
점근 효율성 (Asymptotic Efficiency): 다른 어떤 불편 추정량보다 점근적으로 작은 분산을 가진다 (정보량 하한에 도달한다).

보충: 피셔 정보 행렬과 추정량의 분산

추정치의 분산은 **피셔 정보 행렬 (Fisher Information Matrix)**의 역행렬로부터 얻을 수 있습니다. 피셔 정보 행렬

추정치

실무적으로는 최적화에서 얻은 헤세 행렬 (Hessian matrix)로부터 scipy.optimize.minimize의 hess_inv가 바로 그것입니다.

4. Tobit 모델의 로그 우도 함수 도출

이 부분이 본 기사의 핵심입니다. Tobit 모델의 로그 우도 함수를 처음부터 구축합니다.

관측은 두 종류로 나뉩니다:

절단되지 않은 관측 ( ): 이 날은 $y_i < c$가 관측된 $y_i = y_i^*$
절단된 관측 ( ): 이 날은 $y_i = c$였다는 것만 알 수 있는 $y_i^*

4.1 절단되지 않은 관측의 기여

여기서

4.2 절단된 관측의 기여

절단된 관측에 대해서는, **구체적인 **가,

여기서

4.3 우도 함수와 로그 우도

전체 관측의 우도는 독립성을 가정하여 곱의 형태가 됩니다.

로그를 취해 합으로 변환:

제 1항은 OLS의 우도 그 자체입니다 (정규 선형 회귀의 로그 우도). 제 2항이 Tobit에 고유한 "절단된 관측의 기여"입니다. OLS와 Tobit의 차이는 이 제 2항을 더하느냐 마느냐에 있다고 해도 과언이 아닙니다.

보충: Tobit의 로그 우도는 대역적 볼록 함수이다 (Olsen 1978)

Tobit의 로그 우도 함수는 일반적인 파라미터화 상태에서는 파라미터에 대해 반드시 볼록(concave)하지는 않습니다. 하지만 Olsen (1978)[6]은 **재파라미터화 (reparameterization)**를 하면 **대역적으로 볼록 (globally concave)**해진다는 것을 보여주었습니다.

이러한 성질 덕분에 수치 최적화 (Numerical Optimization) (L-BFGS-B, Newton-Raphson 등)는 어떤 초기값에서 시작하더라도 동일한 대역적 최적해 (Global Optimum)에 도달합니다. 머신러닝의 뉴럴 네트워크 (Neural Network)처럼 "초기값 운에 따라 결과가 바뀌는" 걱정을 할 필요가 없습니다.

구현 측면에서는 많은 Tobit 라이브러리가 내부적으로 Olsen reparameterization을 사용하고 있으며, 사용자는 의식하지 못한 채 그 혜택을 누리고 있습니다. 지난번 scipy.optimize에 그대로 전달해도 작동했던 것도 바로 이 오목성 (Concavity) 덕분입니다.

SALT2 について

본 시리즈의 집필처인 SALT2는 생성 AI, 예측 모델, 최적화를 결합한 맞춤형 AI 솔루션을 다루는 AI 스타트업입니다. 본 기사에서 다룬 통계 및 머신러닝 이론을 실무에 적용하는 프로젝트를 비롯하여, AI Agent를 통한 Media 구축, 비정형 데이터의 자율적 구조화 파이프라인, 컨설팅 업무 DX, 수요 예측 및 최적화 등 기업의 의사결정을 지원하는 폭넓은 솔루션을 설계 및 개발하고 있습니다. 2025년 10월에 부스트 컨설팅 주식회사 (Boost Consulting Co., Ltd.)의 그룹사가 되었으며, 전략 컨설팅과 AI·데이터 사이언스의 전문성을 결합한 체제로 지원을 수행하고 있습니다. 자세한 사례는 SALT2의 사례 페이지에서 확인하실 수 있습니다.

5. Inverse Mills Ratio와 조건부 기대값

Tobit의 추정 결과를 해석할 때는 두 가지 "기대값"을 구분해야 합니다.

기대값	식	쌀 소동에서의 해석
잠재 변수의 기대값		전 국민의 실제 쌀 수요
관측값의 조건부 기대값		실제로 선반에서 구매할 수 있었던 고객의 소비량

여기서 Inverse Mills Ratio라고 불리며, 표준 정규 분포의 밀도 함수와 관련이 있습니다.

5.1 Inverse Mills Ratio의 직관

Inverse Mills Ratio는 **"절단된 (Truncated) 정규 분포의 평균이 원래 정규 분포의 평균으로부터 얼마나 벗어나는가"**를 나타내는 보정항입니다. 쌀 소동의 맥락에서 말하자면 다음과 같은 의미를 갖습니다:

절단이 많은 날 ($P(y^* ext{가 } c ext{보다 큰 경우가 많음})$)은 보정이 크고,
절단이 거의 없는 날 ($P(y^* ext{가 } c ext{보다 큰 경우가 적음})$)은 보정이 0에 가깝습니다.

Breen (1996)[3:2] 제2장 제2.2절에서는 Inverse Mills Ratio를 사용한 Heckman 2단계법 [1:1]이 자세히 설명되어 있습니다. 구체적으로는:

제1단계에서 프로빗 (Probit) 모델을 통해 "절단될지 여부"의 확률을 추정하고, 그 결과로부터 각 관측치에 대해 $\hat{\lambda}_i$ (Inverse Mills Ratio)를 계산한다.
제2단계에서 $\hat{\lambda}_i$를 $y_i$와 $x_i$에 대해 OLS 회귀한다 (절단되지 않은 관측치만 사용): $\hat{\lambda}_i$

이를 설명 변수로 추가함으로써, OLS가 놓치는 편향 (Bias)을 보정할 수 있다는 아이디어입니다.

5.2 쌀 소동의 맥락에서의 해석

쌀 소동기, 실제로 선반에서 쌀을 살 수 있었던 사람의 소비량 (조건부 기대값)과 전 국민의 실제 쌀 수요 (잠재 변수의 기대값)는 구조적으로 다른 양입니다.

선반에서 살 수 있었던 사람: 이미 "수요 $\leq$ 용량 (Capacity)"라는 조건을 통과한 특수한 그룹
전 국민의 수요: 용량의 제약을 받기 전의 본래 소비 의욕

판매량의 평균 (= 조건부 기대값)을 "수요의 대표값"으로 오인하면, 잠재 수요를 과소평가하게 됩니다. Inverse Mills Ratio는 이 두 가지를 연결하는 보정항입니다.

6. 표본 선택 모델 (Heckman 2단계법)의 간단한 소개

Tobit은 "관측되는지 여부"가 별도의 변수에 의해 결정되는 **표본 선택 문제 (Sample Selection Problem)**입니다.

6.1 쌀 소동에서의 구체적인 예

쌀 소동기에 실제로 일어났던 예를 생각해 봅시다.

일부 슈퍼마켓에서는 "1가구당 1봉지 제한"이라는 구매 제한을 두었습니다.
이 제한은 고객의 구매 의욕 (수요)과는 별개인, 가게 측의 규칙에 의해 발동되었습니다.
즉, 관측되는 판매량은 수요 $y$ 그 자체가 아니라, $y^*$가 가게의 규칙 $z$에도 의존하여 절단된 것입니다.

이 경우, Tobit처럼 "...

6.2 Heckman 2단계법의 2식 구조

Heckman (1979)[1:2]는 이러한 종류의 문제에 대해 다음과 같은 2식 구조를 제안했습니다:

단, **이변량 정규분포 (Bivariate Normal Distribution)**를 따르며, 상관관계가 존재합니다.

여기서 중요한 것은

6.3 구현 방침

Heckman 2단계법의 구현은 제4회와 제5회에서 다루겠지만, 대략적인 흐름은 다음과 같습니다:

제1단계: Probit으로 $z_i^$를 추정하고, Inverse Mills Ratio $P(z_i^ > 0)$를 계산합니다. $\hat{\lambda}i -$
제2단계: $z_i$가 관측된 관측치만을 사용하여, $y_i$를 OLS로 추정합니다. $y_i = x_i' \beta + \sigma{u} \rho \hat{\lambda}_i + \varepsilon_i$

Python의 statsmodels에는 직접적인 구현은 없지만, 연구자들이 공유하고 있는 구현이나 자체 제작 코드를 사용할 수 있습니다. 반면, 현대적으로는 2식의 동시 최우추정 (FIML)을 수행하는 것이 표준적이며, NumPyro[7]나 Stan에서 직접 우도 (Likelihood)를 작성하는 것이 더 유연합니다. 제4회에서 이 접근법을 소개하겠습니다.

7. 발전: 다중 임계값과 절단 분위점 회귀

Breen (1996)[3:3] 제4장에서는 **다중 임계값 모델 (Multiple Threshold Model)**을 다루고 있습니다. 이는 절단 임계값이 하나가 아니라 여러 개인 경우의 모델입니다.

7.1 다중 임계값 모델

예를 들어, 어떤 상품이 3개의 가격대로 판매되고 있으며, 각각에 재고 상한이 있다고 가정해 봅시다:

저가형: Capacity $c_1$
중가형: Capacity $c_2$
고가형: Capacity $c_3$

고객은 자신의 수요액에 따라 어떤 가격대를 선택할지 결정하며, 나아가 해당 가격대의 재고가 고갈되면 절단되는 구조입니다. 이는 Tobit의 확장으로서 다중 임계값 모델로 다룰 수 있습니다.

쌀 소동 (Rice Riots)의 맥락에서는 5kg 봉지, 10kg 봉지, 2kg 봉지와 같은 여러 패키지 사이즈가 병행 판매되고 있으며, 각각에 독자적인 재고 제약이 있는 경우가 이에 해당합니다.

7.2 절단 분위점 회귀 (Powell 1984)

또 다른 중요한 발전으로서, Powell (1984)[2:1]가 제안한 **censored quantile regression (절단 분위점 회귀)**가 있습니다.

일반적인 Tobit은 '수요의 기댓값 (Expected Value)'을 추정합니다. 하지만 재고 발주 의사결정에서는 기댓값보다 '수요의 95 퍼센타일 (95th Percentile)'과 같은 높은 분위점이 더 유용합니다. 왜냐하면 재고 부족을 방지하려면 평균을 충족하는 것만으로는 불충분하며, **희망하는 고객 서비스 수준 (예: 95%)**을 달성해야 하기 때문입니다.

절단 분위점 회귀는 정규분포 등의 분포 형태를 가정하지 않고 이 분위점을 추정할 수 있는 준모수적 (Semi-parametric) 방법입니다. Newey, Powell, & Walker (1990)[8]에 의한 표본 선택 모델로의 준모수적 확장도 존재합니다.

8. 이번 회차의 요약 및 구현편으로의 연결

본 기사에서는 Tobit 모델의 수리를 다음과 같은 순서로 구성했습니다.

**잠재 변수 (Latent Variable)**를 고려하며, 관측 $y^*$는 $y$가 임계값을 넘으면 절단된다.

$y^*$의 로그 우도 (Log-likelihood)는 **'절단되지 않은 관측치의 정규 밀도 함수'**와 **'절단된 관측치의 상측 생존 확률'**의 합이다.
Olsen (1978)[6:1]의 재매개변수화 하에서, 로그 우도는 **전역적으로 오목 (Globally Concave)**하며, 최적화가 안정적이다.
Inverse Mills Ratio는 '절단에 의한 편향 보정항'으로서 기능하며, Heckman 2단계법[1:3]의 핵심이 된다.
Tobit은 표본 선택 모델 (Heckman 형)[1:4]의 특수 사례이며, 현실에서는 후자가 필요한 상황도 있다.
다중 임계값 모델 (Breen 제4장[3:4])이나 절단 분위점 회귀 (Powell 1984[2:2])와 같은 발전 형태가 있다.

다음 회차 예고: 구현편으로

여기까지의 이론편은 일단 마무리됩니다. 다음 회차(제4회)부터는 드디어 구현편으로 들어갑니다. 다룰 주제는 다음과 같습니다:

EM Unconstraining (Salch 1997)[9]: 반복적으로 기댓값을 추정하여 절단 보정을 수행하는 기법. 항공권 수익 관리 분야에서 발전했다.

NumPyro: 사후 분포 (Posterior Distribution)를 통해 진정한 수요에 신뢰 구간을 부여한다. [7:1]에 의한 절단 우도를 포함한 베이즈 시계열 모델.
레이와 시대의 쌀 소동을 상정한 합성 데이터에서의 비교: OLS vs EM vs 베이즈.

다음 회차에서는 직접 코드를 작성하며 구현해 보겠습니다.

기존 상품(고시히카리나 아키타코마치와 같은 스테디셀러 브랜드)의 수요 복원이 제4회의 주전장입니다.

SALT2에서는 함께 일할 동료를 모집하고 있습니다

SALT2에서는 본 기사와 같이 통계·계량경제학 (Econometrics) 이론을 클라이언트의 실제 프로젝트에 적용하여, 비즈니스 성과까지 책임지고 전달하는—그런 업무에 도전하고 싶은 엔지니어/데이터 사이언티스트 (Data Scientist)를 지속적으로 모집하고 있습니다. AI·데이터 사이언스 (Data Science)를 전문으로 하는 멤버나, 전략 컨설팅의 지견을 가진 그룹 멤버와 함께, 생성 AI (Generative AI) 시대의 맞춤형 AI 개발 최전선에 도전하고 싶은 분은 꼭 SALT2의 공식 사이트를 통해 연락해 주시기 바랍니다.

Heckman, J. J. (1979). "Sample Selection Bias as a Specification Error,"

Econometrica, 47(1), 153–161. https://doi.org/10.2307/1912352 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ -
Powell, J. L. (1984). "Least Absolute Deviations Estimation for the Censored Regression Model,"

Journal of Econometrics, 25(3), 303–325. https://doi.org/10.1016/0304-4076(84)90004-6 ↩︎ ↩︎ ↩︎ ↩︎ -
Breen, R. (1996).

*Regression Models: Censored, Sample-Selected, or Truncated Data.*Sage Publications. (특히 제2장·제3장·제4장) https://doi.org/10.4135/9781412985611 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ -
Amemiya, T. (1984). "Tobit Models: A Survey,"

Journal of Econometrics, 24(1-2), 3–61. https://doi.org/10.1016/0304-4076(84)90074-5 ↩︎ -
Tobin, J. (1958). "Estimation of Relationships for Limited Dependent Variables,"

Econometrica, 26(1), 24–36. https://doi.org/10.2307/1907382 ↩︎ -
Olsen, R. J. (1978). "Note on the Uniqueness of the Maximum Likelihood Estimator for the Tobit Model,"

Econometrica, 46(5), 1211–1215. https://doi.org/10.2307/1911447 ↩︎ ↩︎ -
NumPyro 공식 문서. https://num.pyro.ai/ ↩︎ ↩︎

Newey, W. K., Powell, J. L., & Walker, J. R. (1990). "Semiparametric Estimation of Selection Models: Some Empirical Results,"

American Economic Review, 80(2), 324–328. https://www.jstor.org/stable/2006601 ↩︎ -
Salch, J. (1997). "Unconstraining Passenger Demand Using the EM Algorithm," Proceedings of the INFORMS Conference, Dallas, TX. 1차 자료는 온라인에 미공개되어 있으며, Talluri & van Ryzin (2004) 등의 2차 문헌을 통해 인용됨. 구현 예시로는

ikatsov/tensor-house

를 참조. ↩︎