
AI로 e-Stat 분석을 100배 빠르게 하면서 깨달았다. 데이터 분석은 '안심할 수 있는 직업'이 아니었다
요약
AI를 활용해 e-Stat 데이터 분석 파이프라인을 구축함으로써 기존 수 주가 걸리던 전처리 과정을 4시간으로 단축한 사례를 다룹니다. 단순 데이터 분석 업무의 자동화와 함께, AI가 대체하기 어려운 고차원적 가치 판단의 중요성을 강조합니다.
핵심 포인트
- AI 협업을 통해 데이터 취득 및 정형 공정을 약 100배 단축 가능
- 데이터 전처리(Cleaning, Shaping) 업무의 급격한 자동화
- 단순 상관관계 분석은 AI에 의해 빠르게 범용화될 위험 존재
- 사회적 영향력과 가치 판단을 포함한 상류 분석 역량의 필요성
「AI가 화이트칼라의 직업을 없앨 것이다」
이런 종류의 이야기는 이미 인터넷에 넘쳐나고 있다. 불안을 부추기면 PV(페이지 뷰)가 늘어나기 때문이기도 할 것이다. 솔직히 나도 처음에는 남의 일처럼 읽고 있었다.
왜냐하면, 이렇게 생각했기 때문이다.
IT 업계가 아무리 AI화되어도,
데이터 분석만큼은 살아남는다.
데이터를 읽고, 가설을 세우고, 의미를 추출한다. 이곳은 인간의 영역이라고.
아마도 똑같은 오해를 하고 있는 엔지니어는 산더미처럼 있을 것이다. "코드는 못 짜게 되어도, 분석할 줄 아는 녀석은 강하다"라고.
하지만 지난 몇 달간, 통계 컴피티션(Competition)이나 지자체의 재정 분석을 직접 진행하면서 그 전제가 소리를 내며 무너졌다.
게다가 그것은 누군가에게 들은 이야기가 아니다. 내 손으로, 내 직업이 사라져 가는 모습을 실연해 버렸다는 이야기다.
놀라움은 총 4번 있었다.
이 기사에 나오는 4가지 용어(자세히 몰라도 OK, 대략적으로만 알아도 충분합니다)
- e-Stat (이스타트): 국가 통계를 모아서 공개하는 포털. 「정부 통계 종합 창구」
- SSDSE: 분석용으로 정리된 통계 데이터셋. 통계 데이터 분석 컴피티션에서 사용됨
- RESAS (리사스): 국가가 만든 지역 경제 시각화 시스템. 인구·산업·재정 등을 그래프로 볼 수 있음
- ESRI (에스리): 내각부의 경제사회 종합연구소. 정책을 위한 경제 연구를 수행하는 국가 기관
데이터 분석 업무의 대부분은 사실 「분석」이 아니다.
- 데이터 취득
- 클리닝 (Cleaning)
- 정형 (Shaping)
이 지루하고, 귀찮고, 끝나지 않는 전공정(Pre-processing)이 업무의 8할이었다. e-Stat에서 여러 통계를 도도부현(都道府県)별로 맞추는 것만 해도, 테이블을 찾고, API 사양을 조사하고, 취득 코드를 작성하고, 결측치·표기 불일치·단위를 처리하느라... 내용에 따라 평연히 수 주간이 날아가곤 했다.
그런데 일단 AI와 협업하여 데이터 파이프라인 (Data Pipeline)을 만들어 버리면, 이 일련의 과정이 차원이 다르게 빨라졌다.
얼마나 빨라졌는지는 별도의 기사에 공정별 Before/After를 정리해 두었다.
📄
AI에게 「관공서 과장의 고민」을 이해시켰더니, 제안서가 3시간 만에 완성되었다
——인간이라면 약 6주가 걸리는 공정(데이터 취득·정형 ~ 제안서 작성)이, AI와 함께하면 약 4시간. 대략 100배였다. 📄 파이프라인의 내용(병렬 처리 등의 구축 방법)은 이쪽으로 →
e-stat의 마경에 AI와 도전했더니, pipeline·병렬 처리로 제압한 이야기
숫자의 상세한 내용은 그쪽을 참고하기로 하고, 여기서 말하고 싶은 것은 배율 그 자체가 아니다.
처음에는 솔직히 감동했다. "이것으로 본질적인 분석에 집중할 수 있다"라고.
……하지만 조금 냉정해지고 나서 깨달았다.
**지금 사라진
SSDSE(통계 컴피티션) → RESAS(정책 콘테스트) → ESRI(정책 연구)로 이어지는 자신의 활동을 나열해 보며, 한 가지 사실을 깨달았다.
같은 '데이터 분석 (Data Analysis)'이라도, 평가받는 기준이 완전히 다르다.
| 단계 | 무엇으로 평가받는가 | 질문의 형태 |
|---|---|---|
| SSDSE | 상관관계가 있는가 | "무슨 일이 일어나고 있는가" |
| RESAS | 그래서 무엇을 할 것인가 | "그러니까, 어떻게 할 것인가" |
| ESRI | 정말로 사회를 바꿀 수 있는가 | "그래서 사회는 변하는가" |
하류(SSDSE)는 "상관관계가 있다"로 평가받는다. 이곳은 AI가 가장 잘하는 분야이며, 가장 빠르게 범용화 (Commoditization)될 계층이다.
하지만 상류(ESRI)로 올라갈수록, 요구되는 것은 "이 분석으로 실제로 사람들의 삶이 변하는가"가 된다. 이곳은 데이터의 바깥쪽 —— 현장, 이해관계, 가치 판단 —— 이 얽혀 있어, AI나 RESAS만으로는 채울 수 없다.
분석의 가치는 분석 그 자체에 있는 것이 아니다. 정책이나 의사결정 (Decision Making)에 가까워질수록 올라간다.
"AI에게 일자리를 빼앗길 것인가?"에 관심을 갖는 사람들의 본심은, 아마도 "그렇다면 나는 어디로 향해야 하는가?"일 것이라고 생각한다.
나의 잠정적인 답은 이렇다. 하류에 머물수록 AI에 삼켜지고, 상류로 갈수록 인간이 남는다. 상관관계를 도출하기만 하는 사람에서, 의사결정을 움직이는 사람으로. 나아가야 할 곳은 상류다.
마지막으로, 이 기사에서 가장 말하고 싶었던 것을 쓰겠다.
AI가 빼앗은 것은 분석가의 업무가 아니었다.
분석가가 며칠씩 걸려 수행하던 "준비 작업"이었다.
그리고 분석가의 가치는 분석의 하류가 아니라, 상류로 이동하고 있었다.
"AI로 데이터 분석가의 일자리가 사라진다" —— 절반은 맞다. 데이터 취득, 정제, 집계와 같은 "작업"의 가치는 확실히 떨어진다.
하지만 사라진 것이 아니라, 이동했다. 그리고 이 기사에서 정말로 전달하고 싶었던 것은 "AI에게 일자리를 빼앗긴다"는 이야기가 아니다. 분석 그 자체는 이제 더 이상 목표가 아니게 되었다는 것이다.
상관관계를 도출하는 것이라면 AI가 한다. 깔끔한 시각화 (Visualization)라면 RESAS가 한다. 그리고 "그 분석으로 누구를 움직이고 싶은가"를 생각하는 지점부터 인간의 업무가 시작된다.
그 너머에 있는 것은 "무엇을 의심할 것인가 (질문)"와 "그러니까, 어떻게 할 것인가 (의사결정)"이다. 데이터 분석의 가치는 하류의 작업에서 정책이나 의사결정이라는 상류로 옮겨간다.
……라고, 일단 지금의 나는 생각하고 있다. 몇 년 후, 이 기사를 다시 읽으며 "안일했다"고 생각할 날이 올지도 모르겠지만.
(여담. 이것을 끝까지 파고들면 "AI는 조직의 형태 그 자체를 바꾸는 것이 아닐까?"라는 더 큰 질문에 부딪힌다. 현장과 의사결정의 경계가 녹아내리는 이야기다. 내용이 길어지므로, 그것은 또 다른 기사에서 쓰고 싶다.)
이 기사는 통계 데이터 분석 컴피티션, 지방 창생 정책 아이디어 콘테스트를 검토하며 느낀 점을 정리한 것입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기