수요 예측에서의 절단 문제 ① 도입편 ─ 「레이와 시대의 쌀 소동」이 가르쳐준 수요 예측의 함정

시리즈 구성

본 기사는 총 5회 시리즈 중 제1회입니다.

회차	테마	수식	코드	예상 독자
제1회 (본 기사)	도입편: 레이와 시대의 쌀 소동과 절단 문제 (Censoring Problem)	없음	없음	업무 담당자·PM·학생
제2회	이론편 (전편): 왜 일반적인 예측 모델은 계통적으로 틀리는가	가벼움	합성 데이터 실험	데이터 분석을 접하기 시작한 분
제3회	이론편 (후편): Tobit 모델의 수리적 원리와 최대 우도 추정 (MLE)	본격적	최소한	통계 모델을 배우는 분
...

서론

처음 뵙겠습니다, SALT2에서 데이터 사이언티스트(Data Scientist)로 일하고 있는 최(@Ikkou-Sai)입니다.

2024년 여름, 일본 슈퍼마켓의 쌀 선반에서 상품이 일제히 사라졌습니다. 이후 「레이와 시대의 쌀 소동」이라 불리게 된 이 현상[1:1]은 단순한 일시적 사재기에 그치지 않고, 2025년 5월 하순에는 슈퍼마켓 매장의 쌀(5kg 봉지) 전국 평균 가격이 세금 포함 4,260엔대에 달하는 수준까지 폭등하였고[2], 정부가 비축미를 단계적으로 방출하기에 이르렀습니다[3].

이 사건은 사회 전체적으로는 「쌀을 살 수 없다」는 일상적인 불편함이었지만, 수요 예측(Demand Forecasting)에 관여하는 데이터 사이언티스트에게는 조금 다른 의미를 가지고 있었습니다.

「우리가 매일 보고 있는 POS 데이터의 "매출 수량"은, 정말로 소비자가 원했던 양일까?」

이 질문은 평상시에는 좀처럼 표면으로 드러나지 않습니다. 왜냐하면 평상시에는 판매된 수량 ≒ 원했던 수량이라고 간주해도 무방한 상황이 대부분이기 때문입니다. 하지만 레이와 시대의 쌀 소동과 같은 극단적인 사건에서는 그 암묵적인 전제가 단번에 무너집니다. 선반이 비어버린 순간, 매출 수량은 「재고가 있었다면 팔렸을 양」의 일부분밖에 기록할 수 없게 되기 때문입니다.

본 시리즈에서는 이 「매출 수량과 진정한 수요의 괴리」를 통계적으로 어떻게 다루는지 총 5회에 걸쳐 단계적으로 해설합니다. 제1회인 본 기사에서는 이론이나 구현에는 깊이 들어가지 않고, 「왜 이것이 문제인가」를 친숙한 사례를 통해 감각적으로 파악하는 것을 목표로 합니다. 수식은 일절 사용하지 않습니다.

1. 잡기: 2024년 여름, 그때 무슨 일이 일어났는가

2024년 8월 8일 16시 43분경, 미야자키현 앞바다 히나타나다를 진원으로 하는 M7.1의 지진이 발생했습니다[4][5]. 기상청은 이를 받아 2019년 제도 운용 개시 이후 처음으로 「난카이 트로프 지진 임시 정보 (거대 지진 주의)」를 발표했습니다[5:1]. 이 보도로부터 며칠 지나지 않아 전국 슈퍼마켓에서 이변이 일어나기 시작합니다.

비축을 위한 사재기가 급증하며 주식인 쌀 선반이 차례차례 비어갔습니다. TV는 텅 빈 쌀 선반, 급히 붙여진 「1인당 1개 한정」 안내문, 평소라면 쌓여 있었을 5kg 봉지가 단 한 봉지도 남아 있지 않은 매장을 연일 반복해서 비추었습니다. 이때 우리는 문득 깨닫게 됩니다.

「쌀이 없다」고 적힌 선반 앞에서, 얼마나 많은 사람이 발길을 돌렸을까?

사후에 공표된 POS 데이터에서도 이 이변은 수치로 확인할 수 있습니다. INTAGE의 SRI+ 분석[6]이나 관련 보도[7]에 따르면, 2024년 8월 상순~~중순에는 쌀 판매 수량이 전년 동기 대비 3~~5할 정도 급증하였고, 선반이 비어감에 따라 SKU 수(취급 브랜드 수)가 급감하였습니다. 하지만 이 숫자들은 어디까지나 「실제로 매장에서 판매된 수량」에 관한 이야기입니다.

판매된 수는 기록에 남습니다. 하지만, 원해서 매장까지 왔지만 사지 못한 수는 누구의 기록에도 남지 않습니다.

현장의 슈퍼마켓에서는 주문한 수량이 입고되지 않는다, 선반에 진열해도 금방 사라진다 등의 상황이 TV 뉴스에서 연일 보도되었습니다. 수도권 체인점인 아키다이의 아키다이 히로미치 사장[8]이 연일 카메라에 비춰진 것도 이 시기입니다. 또한 일부 슈퍼마켓에서는 통상 취급하는 쌀 봉지가 입고되지 못해 소용량 팩으로 전환하거나 「1가구 1봉지까지」로 구매 제한을 도입한 사례도 보도되었습니다[7:1]. 소비자들은 여러 슈퍼마켓, 드럭스토어, 인터넷 쇼핑몰을 찾아 헤맸고, 그럼에도 사지 못하고 포기한 분들도 적지 않았습니다.

이때 전국에서 일어나고 있던 현상을 조금 추상화하여 말하면 다음과 같습니다:

즉, 평상시에는 등호(=)로 연결되어 있던 세 가지 양 중, 「원하는 양」과 「팔리는 양」 사이의 등호가 쌀 소동기에는 파탄 난 것입니다. 그리고 POS 데이터는 어디까지나 「팔리는 양」을 기록하는 시스템인 이상, 「원하는 양」에 접근할 수단을 잃었습니다.

2. 소박한 의문: POS 데이터를 보면 수요를 알 수 있다, 정말로?

소매 및 유통 현장에서는 POS 데이터 (판매 시점 정보 관리, Point of Sales의 약자)를 이용한 수요 예측이 당연하다는 듯이 이루어지고 있습니다.

슈퍼마켓이 내일의 빵 발주량을 결정한다
편의점이 삼각김밥의 제조 수를 결정한다
드럭스토어가 인플루엔자 유행기의 마스크 재고를 조정한다

이러한 의사결정은 대부분 과거의 POS 데이터로부터 추정된 「수요 예측 (demand forecasting)」에 기반하고 있습니다. 머신러닝 (Machine Learning)의 발달로 예측 모델의 정밀도는 해마다 향상되고 있으며, 「어제까지의 매출 데이터를 제공하면 내일의 매출을 높은 정밀도로 맞출 수 있게」 되었습니다.

그렇다면 여기서 사고 실험을 하나 해봅시다.

2024년 8월 10일 시점의 POS 데이터를 그대로 사용하여 「쌀 수요 예측 모델」을 구축했다고 가정해 봅시다. 이 모델에 내일의 수요를 예측하게 하면 무엇이 돌아올까요?

답은 간단합니다: 모델은 선반에 진열한 만큼만 팔린다고 학습해 버린다.

왜냐하면 모델에게 보이는 데이터는 다음과 같기 때문입니다.

날짜	판매 수량	선반 상황
8/5	30봉지	평상시
...

모델은 이 표를 보고 「8월 중순의 쌀 수요는 50봉지 정도겠구나」라고 학습합니다. 하지만 현실에서는 그 50봉지는 「50봉지 분량의 재고밖에 준비할 수 없었던 결과」이며, 진정한 수요는 200봉지, 300봉지, 혹은 그보다 더 많았을 가능성이 있습니다.

이것은 많은 독자가 일상적으로 다루고 있는 데이터의 근본적인 성질입니다. POS 데이터는 「실현된 거래」의 기록이며, 「성립되지 않은 거래」에 대해서는 전혀 말해주지 않습니다.

그리고 여기에 본 시리즈가 다룰 「절단 문제 (censoring problem)」의 핵심이 있습니다.

3. 절단 (censoring)이라는 개념을 말로 설명하기

여기서 통계학 전문 용어를 하나 소개하겠습니다. 바로 절단 (censoring) 입니다.

다만, 갑자기 정의부터 들어가면 너무 추상적이 되므로, 우선은 친숙한 예시부터 들어보겠습니다.

예시 1: 체중계의 상한선

가정용 체중계는 많은 경우 150kg 정도가 측정 상한선입니다. 120kg인 사람이 올라가면 120.0kg이라고 정확하게 표시됩니다. 하지만 만약 실제 체중이 180kg이었다면 어떨까요? 체중계의 표시는 「150.0kg (또는 Err 표시)」가 되며, 실제 값은 측정할 수 없습니다.

알 수 있는 것: 이 사람의 체중은 「적어도 150kg 이상이다」 -
알 수 없는 것: 정확히 150kg인지, 170kg인지, 200kg인지

예시 2: 100점 만점의 시험

학교 기말시험은 통상 100점 만점입니다. 80점을 받은 학생에 대해서는 「이 학생의 실력은 80점 상당」이라고 솔직하게 말할 수 있습니다. 그렇다면 100점 만점을 받은 학생은 어떨까요?

알 수 있는 것: 이 학생의 실력은 「적어도 100점 상당 이상이다」 -
알 수 없는 것: 정확히 100점인지, 120점이나 150점도 받을 수 있는 실력인지

시험의 천장(100점)이 학생의 진짜 실력을 측정하는 것을 방해하고 있습니다.

예시 3: 쌀 소동의 선반

2024년 8월 10일의 슈퍼마켓에서, 어떤 점포에 쌀이 50봉지만 입고되었다고 가정해 봅시다. 아침 개점과 동시에 줄이 생겼고, 오전 중에 50봉지 전부가 매진되었습니다. 저녁까지 가게 문을 열어두었지만, 선반은 비어 있는 상태입니다.

알 수 있는 것: 이 날의 수요는 「적어도 50봉지 이상이다」 -
알 수 없는 것: 정확히 50봉지인지, 100봉지인지, 200봉지인지

이 세 가지 예시에 공통되는 구조가 통계학에서 말하는 「절단 (censoring)」입니다. 관측값이 임계치(threshold)에 도달했다는 것은 알 수 있지만, 실제 값은 그 이상일 수도 있다는 상황입니다.

보충: 절단 (censoring)과 절단/절단 (truncation)의 차이

이론적으로는 또 하나의 가까운 개념으로 truncation (절단/절단) 이 있습니다. Breen (1996)[9]은 양자를 다음과 같이 정리하고 있습니다.

Censoring (절단): 관측값이 임계치에 도달했다는 것은 알 수 있지만, 실제 값은 알 수 없다. 설명 변수 (요일, 기온 등)는 모든 관측에서 알 수 있다. -
Truncation (절단/절단): 관측값이 임계치를 초과할 경우, 관측 자체가 데이터에서 사라진다. 설명 변수조차 남지 않는다.

쌀 소동의 예를 들면, 선반이 비어 있었다는 사실과 그날이 무슨 요일이었는지

기존 상품 (제 4회): 긴 판매 이력이 있으며, 아주 짧은 기간 동안만 판매가 중단(Censoring)된 경우. 비교적 성숙한 해법 (EM Unconstraining, 베이즈 절단 우도 (Bayesian Censored Likelihood))이 존재한다. 쌀 소동에서의 「고시히카리」, 「아키타코마치」 등 스테디셀러 브랜드 쌀이 여기에 해당한다.
신상품 (제 5회 전반부): 애초에 이력이 없으며, 출시 직후부터 판매 중단이 발생한다. **유사 상품으로부터의 정보 전이 (Information Transfer)**가 핵심이다. 소매점에서 신규 채택하는 브랜드 쌀이나, 새롭게 투입되는 브랜드 쌀 등이 여기에 해당한다.
단종 상품 (제 5회 중반부): 판매 종료가 다가오면서 가격 변동과 재고 감소가 동시에 진행된다. 절단(Censoring)과 인과 추론 (Causal Inference)이 얽힌 발전적인 주제이다. 현시점에서 성숙한 해법은 아직 존재하지 않는다.

이러한 차이점들을 고려하면서, 제 4회와 제 5회에서는 실제로 Python으로 동작하는 코드를 작성해 나갈 것입니다.

7. 다음 회차로의 연결 고리

지금까지는 "그러한 문제가 있다"라는 정성적인 이야기였습니다. 다음 회차에서는 다음 질문에 답합니다.

절단을 무시한다면, 예측은 얼마나 어긋나는가?

제 2회에서는 Python으로 합성 데이터 (Synthetic Data)를 준비하고, 쌀 소동과 같은 절단 상황을 설정한 뒤, 일반적인 선형 회귀 (OLS)와 토빗 모델 (Tobit Model) [11]을 비교합니다. 편향 (Bias)을 눈에 보이는 형태로 확인하는 것이 목적입니다.

SALT2에서는 함께 일할 동료를 모집하고 있습니다

SALT2에서는 본 시리즈에서 다루는 것과 같은 최첨단 AI·데이터 사이언스 기술을 실제 프로젝트에서 마음껏 활용하고 싶은 엔지니어/데이터 사이언티스트의 채용 및 인턴십을 지속적으로 진행하고 있습니다. AI·데이터 사이언스를 전문으로 하는 멤버나, 전략 컨설팅 지식을 갖춘 그룹 멤버와 함께 생성 AI 시대의 맞춤형 AI 개발의 최전선에 도전하고 싶은 분은 꼭 SALT2 공식 사이트를 통해 지원 및 문의해 주시기 바랍니다.

레이와 쌀 소동 — Wikipedia. https://ja.wikipedia.org/wiki/令和の米騒動 ↩︎ ↩︎

농림수산성 「슈퍼마켓 판매 수량·가격 추이 (POS 데이터 기반 작성)」. 전국 약 1,000개 점포의 POS 집계에 기반하여, 2025년 5월 19~25일의 슈퍼마켓 쌀 5kg 전국 평균이 세금 포함 4,260엔대에 달했다는 내용을 집계. https://www.maff.go.jp/j/syouan/keikaku/soukatu/ksppos.pdf ↩︎

미쓰비시 종합연구소 「『레이와의 쌀 소동』 (3) 쌀 가격 급등의 구조와 비축미 방출의 의미」 (2025년 3월). https://www.mri.co.jp/knowledge/column/20250311_2.html ↩︎ ↩︎

기상청 「2024년 8월 8일 16시 43분경 휴가나다(日向灘) 지진에 대하여」 (보도 발표 자료, 2024년 8월 8일). https://www.jma.go.jp/jma/press/2408/08b/202408081745.html ↩︎

휴가나다 지진 (2024년) — Wikipedia. https://ja.wikipedia.org/wiki/日向灘地震_(2024年) ↩︎ ↩︎

주식회사 인테이지 「데이터로 보는 레이와의 쌀 소동 ~~2025년의 동향과 비축미의 효과란~~」 (알 아는 갤러리 by INTAGE). SRI+ 전국 소매점 패널 조사에 기반한 분석. https://gallery.intage.co.jp/komesoudou_2/ ↩︎

동양경제 온라인 「『레이와의 쌀 소동』은 왜 일어났나? 비판의 대상이 된 쌀 도매업계 최고 경영자가 말하는 가격 급등의 뿌리 깊은 배경」. https://toyokeizai.net/articles/-/889678 ↩︎ ↩︎

아키다이 — Wikipedia. 수도권의 슈퍼마켓 체인. 아키다이 사장은 각 TV 방송국의 뉴스 프로그램에서 연간 250회 이상 인터뷰를 받는 단골이다. https://ja.wikipedia.org/wiki/アキダイ ↩︎

Breen, R. (1996).

Regression Models: Censored, Sample-Selected, or Truncated Data. Sage Publications. (본 시리즈의 이론적 뼈대) https://doi.org/10.4135/9781412985611 ↩︎ -

경제산업연구소 (RIETI)의 칼럼 등은 쌀 소동의 구조적 요인 (생산 조정, 유통, 수급 전망)에 대해 지속적으로 논하고 있다. https://www.rieti.go.jp/jp/index.html ↩︎

Tobin, J. (1958). "Estimation of Relationships for Limited Dependent Variables," Econometrica, 26(1), 24–36. https://doi.org/10.2307/1907382 ↩︎