【총집편】기상청 데이터를 분석하며 깨달은, 데이터 분석에서 반드시 빠지는 6가지 함정

기상청의 40년 치 데이터를 계속 분석했다.

그러자,

"도쿄가 가장 덥다"
"온난화는 일직선으로 진행된다"
"따뜻한 겨울(暖冬)인데 대설이 늘었다"

라는 당연하다고 생각했던 이야기들이, 모조리 "절반만 맞았다".

그리고 되돌아보니, 틀렸던 것은 기후에 대한 이해뿐만이 아니었다. 나 자신도 데이터 분석에서 전형적인 함정에 몇 번이고 빠져 있었다.

이 기사에서는 3편의 기사를 되돌아보며, 데이터 분석에서 반복적으로 나타나는 6가지 함정을 소개한다.

분석을 되돌아보면, 나는 몇 번이고 비슷한 함정에 빠져 있었다.

평균만 보고 안심한다
하나의 트렌드 선(Trend line)을 믿는다
집계 단위의 영향을 잊는다
인상적인 사건을 과대평가한다
통계가 말할 수 있는 범위를 넘어 해석한다
재미있는 결과를 그대로 믿는다

모두 기후 분석만의 이야기가 아니다. 매출 분석에서도, 액세스 분석에서도, 설문 조사 집계에서도 같은 함정이 반복해서 나타난다.

지난 반년 동안 기상청의 공개 데이터를 Python으로 분석하여 3편의 기사를 작성했다.

기사	직관	데이터가 보여준 것
제1작: 도쿄의 폭염일은 40년 동안 13배 증가. 그럼에도 전국 1위는 아니었다. 왜 카가와가 1위인가?	도쿄가 폭염일 증가 1위일 것이다	카가와가 1위였다
...
3편에 공통적인 것은, 직관이 완전히 틀렸던 것이 아니라 "절반은 맞았다"는 점이다.

이 "절반의 오차"가 데이터 분석에서 반복적으로 나타나는 패턴을 가르쳐 주었다.

직관은 경험의 축적에서 나온다. 그래서 완전히 빗나가는 경우는 드물다.

문제는 직관이 경험의 특정한 부분만을 반영한다는 것이다.

인간의 직관이 포착하는 것:
・기억에 강하게 남은 사건 (뉴스·체험)
・눈에 띄기 쉬운 것 (대도시·극단적인 현상)
...

기상 데이터 분석에서 이것이 여실히 드러났다.

제3작의 교훈

호쿠리쿠의 강설량을 조사하면, 1981~~1990년의 평균(278cm)보다 2015~~2024년의 평균(185cm)이 33%나 적다.

"눈이 줄었다"라는 결론은 맞다.

하지만 연도별 변동 계수(Coefficient of Variation)를 계산하면:

시대	평균 최심적설	변동 계수(CV)
1990년대	39cm	34% (안정·적설 적음)
2010년대	42cm	70% (불안정·폭설)

평균은 비슷하지만, 변동성이 2배가 되어 있었다.

이 차이야말로 "따뜻한 겨울인데 폭설 뉴스가 늘어난 것 같다"는 느낌의 정체였다.

평균이 안정적이었던 1990년대:
30, 35, 40, 42, 38, 45, 37 cm ← 매년 비슷비슷함. 큰 뉴스 없음
변동이 큰 2010년대:
...

📌 교훈: 평균뿐만 아니라 분산(표준편차·변동 계수)을 반드시 확인할 것.

→ 자세한 분석 과정은 제3작 「"따뜻한 겨울인데 대설"은 절반은 사실이었다」에서 소개하고 있습니다.

제2작의 교훈

일본의 연평균 기온 편차를 1981~2024년 동안 살펴보면 상승 트렌드는 명확하다.

하지만 전 기간을 하나의 직선으로 긋는 것은 너무 거칠었다.

기간을 나누어 보면:

기간	변화 속도
1981~1997년	+0.51℃/10년 *
1998~2010년	±0.00 (정체)
2011~2024년	+1.12℃/10년 ***

1998~2010년의 13년 동안은 정체기였다. 전 기간에 대해 선형 회귀(Linear regression)를 그려도 이 정체는 보이지 않는다.

from scipy import stats
# ❌ 전 기간을 하나의 선으로 긋기 (구조적 변화를 간과함)
slope_all, *_ = stats.linregress(years, temp)
...

나아가 "정말로 브레이크(Break)가 있는가"는 Chow 검정(특정 연도를 기점으로 경향이 변화했는지 여부를 F-검정으로 조사하는 기법)을 통해 확인했다.

일본 근해 SST → Chow(2010년) : **p = 0.0008 *** (강한 유의성)

그래프에서 "보이는" 것과 통계적으로 "말할 수 있는" 것은 별개의 문제다.

📌 교훈: 장기 데이터를 분석할 때, 기간 전체에 하나의 선을 긋기 전에 구조적 변화가 없는지 의심하라. Chow 검정은 간편하고 강력하다.

→ 자세한 분석 과정은 제2작 「기온과 해수면 온도를 겹쳐보니 정체기가 발견되었다」에서 소개하고 있습니다.

제1작의 교훈

"폭염일이 증가한 도도부현 랭킹"을 만들면, 도쿄는 전국 20위였다.

도쿄에 살고 있는 사람이 "도쿄가 가장 더울 것이다"라고 느끼는 것은 자연스럽다. 하지만 전국 47개 현의 데이터를 보면, 카가와(Kagawa, +23.0일)가 1위였다.

통계학에서는 이를 "집계 단위를 바꾸면 결과가 변하는 문제"(MAUP: Modifiable Areal Unit Problem)라고 부른다.

전국 평균을 보면: 일본 전체에서 폭염일(猛暑日)이 증가했다
도쿄만 보면: 도쿄는 13배가 되었다 (인상이 강렬함)
47개 현으로 보면: 카가와가 1위, 도쿄는 20위
...

데이터를 집계하기 전에 "이 스케일로 집계했을 때 무엇이 보이지 않게 될 것인가"를 생각할 것.

📌 교훈: 전체 평균·지역별·개별의 3단계 레벨로 확인하는 습관을 갖는다. 집계하면 사라지는 정보가 있다.

→ 자세한 분석 과정은 제1작 「도쿄의 폭염일은 40년 동안 13배. 그럼에도 전국 1위는 아니었다」에서 소개하고 있습니다.

제3작의 교훈

"최근 여름은 이상하게 더운 것 같다"라는 감각은 옳다.

하지만 "2010년대부터 갑자기 변한 것 같다"라는 감각에 대해서는 조금 더 정밀하게 생각할 필요가 있었다.

인간의 기억에 강하게 남는 것은 평균적인 날이 아니라, 예외적인 사건이다.

호쿠리쿠(Hokuriku)의 겨울 (1990년대):
30, 35, 40, 42, 38, 45 cm ← 매년 비슷비슷함. 기억에 남지 않음.
호쿠리쿠(Hokuriku)의 겨울 (2010년대):
...

2018년의 후쿠이 147cm, 2021년의 칸에츠 자동차도(関越道) 정체. 이것들은 강렬하게 기억에 남는다. "그저 그런 해"는 거의 기억되지 않는다.

이는 인지과학에서 말하는 가용성 휴리스틱 (Availability Heuristic, 머릿속에 떠오르기 쉬운 것 = 빈번하게 일어나는 것이라고 뇌가 오해하는 현상)에 의한 것이다.

평균이 낮아짐으로써, 극단적인 해의 임팩트가 상대적으로 커졌다.

📌 교훈: "○○이 늘어난 것 같다"라는 직관을 검증할 때, 전년도의 평균·중앙값을 반드시 계산한다. 사람의 기억은 극값(Extreme value)에 편향되어 있다.

→ 자세한 분석 과정은 제3작 「"난동(暖冬)인데 대설"은 절반은 사실이었다」에서 소개하고 있습니다.

제2작의 교훈

Chow 검정(Chow test)으로 2010년의 브레이크(Break)를 검정한 결과는 다음과 같다:

지표	Chow(2010년)
일본 연평균 기온 편차	p = 0.044 *
...

SST(해수면 온도)는 매우 유의미하지만, 폭염일수는 Chow 검정에서 유의미하지 않았다.

기사에서는 이것을 솔직하게 작성했다.

✅ 말할 수 있는 것
"2010년 전후로, 기온 편차와 SST의 상승 속도가 통계적으로 변화했다"
❌ 아직 말할 수 없는 것
...

p=0.044는 유의 수준 0.05를 약간 밑돌지만, "강한 증거"라고는 할 수 없다. 본문에서는 "2010년 전후"라는 표현에 그쳤다.

📌 교훈: p-value의 크기에 따라 주장의 강도를 조절한다. "유의미했다"라는 말만으로 강한 주장을 하지 않는다. "말할 수 있는 것/아직 말할 수 없는 것"을 명시하는 습관이 신뢰성을 높인다.

→ 자세한 검증 과정은 제2작 「기온과 해수면 온도를 겹쳐보니 정체기가 발견되었다」에서 소개하고 있습니다.

제1작의 교훈

카가와가 폭염일 증가 1위라는 결과가 나왔을 때, 가장 먼저 의심했다.

2024년이 이상치(Outlier)는 아닌가? → 2024년을 제외한 2020~2023년에서도 20.8일로 1위
관측점 변경은 아닌가? → 급변 연도(1994, 2010, 2024)는 전국적인 폭염 연도와 일치. 변경의 흔적 없음
집계 실수인가? → 코드를 재확인

세 가지를 확인하고 나서야 비로소 "카가와 1위는 신뢰할 수 있다"라고 판단했다.

이 "자신의 흥미로운 결과를 스스로 의심하는" 프로세스야말로 데이터 분석 기사의 신뢰성을 만든다.

Qiita 독자들이 반응하는 것은 "카가와가 1위였습니다"라는 결론보다 "카가와가 1위였기 때문에 스스로 의심했다"라는 과정이다.

# 이상치 확인 예시
# 2024년을 제외한 2020-2023년 평균
d_ex2024 = df_agg[(df_agg["pref"]=="香川") &
...

📌 교훈: 흥미로운 결과가 나왔을 때일수록 이상치·데이터 품질·집계 실수를 의심한다. "스스로 의심하고 확인했다"라는 프로세스의 투명성이 독자의 신뢰를 얻는다.

→ 자세한 검증 과정은 제1작 「도쿄의 폭염일은 40년 동안 13배. 그럼에도 전국 1위는 아니었다」에서 소개하고 있습니다.

6가지 깨달음을 정리하면:

#	함정	대응하는 분석 기술
1	평균만 보고 있으면 놓친다	분산·변동 계수를 반드시 확인한다
...

직관은 부정해야 할 대상이 아니다. 오랜 경험이나 피부로 느끼는 감각은 "무언가 변하고 있다"라는 시그널로서 기능한다.

데이터 분석의 역할은 그 시그널을 정밀하게 만드는 것이다.

「왠지 그렇게 생각했다」 → 「데이터로 확인해보니 절반은 맞았다」 → 「나머지 절반에는 의외의 구조가 있었다」

이러한 흐름이 반복되는 것이 데이터 분석의 재미라고 생각한다.

기후 변화는 단순한 "더워진다·추워진다"의 문제가 아니다. 평균과 극단 현상(extreme phenomena), 그리고 인간의 기억이 겹쳐짐으로써, 우리는 종종 실제와는 다른 풍경을 보고 있다.

데이터는 그 "차이"를 알려준다.

사용 데이터: 기상청 일일 관측·연차 통계 (47개 도도부현 1981~2024년)

분석 언어: Python (pandas, scipy, matplotlib)

【총집편】기상청 데이터를 분석하며 깨달은, 데이터 분석에서 반드시 빠지는 6가지 함정

요약

핵심 포인트

2024년이 이상치(Outlier)는 아닌가? → 2024년을 제외한 2020~2023년에서도 20.8일로 1위
관측점 변경은 아닌가? → 급변 연도(1994, 2010, 2024)는 전국적인 폭염 연도와 일치. 변경의 흔적 없음
집계 실수인가? → 코드를 재확인

댓글

【총집편】기상청 데이터를 분석하며 깨달은, 데이터 분석에서 반드시 빠지는 6가지 함정

요약

핵심 포인트

2024년이 이상치(Outlier)는 아닌가? → 2024년을 제외한 2020~2023년에서도 20.8일로 1위 관측점 변경은 아닌가? → 급변 연도(1994, 2010, 2024)는 전국적인 폭염 연도와 일치. 변경의 흔적 없음 집계 실수인가? → 코드를 재확인

댓글

2024년이 이상치(Outlier)는 아닌가? → 2024년을 제외한 2020~2023년에서도 20.8일로 1위
관측점 변경은 아닌가? → 급변 연도(1994, 2010, 2024)는 전국적인 폭염 연도와 일치. 변경의 흔적 없음
집계 실수인가? → 코드를 재확인