AI가 2026년 데이터 사이언티스트(Data Scientist)의 역할을 어떻게 변화시키고 있는가

LLM 시대가 데이터 사이언티스트(Data Scientist)의 직무 기술서에 무엇을 추가했는가?

수년 동안 "데이터 사이언티스트 (Data Scientist)"는 한 가지를 의미했습니다: ML 모델 구축, A/B 테스트 실행, Python 작성. 2022년의 채용 공고는 다음과 같았습니다: Python, scikit-learn, SQL, 어쩌면 TensorFlow, 이해관계자에게 결과 전달. 그러한 설명은 여전히 존재하며, 여전히 높은 급여를 제공합니다. 하지만 그 옆에는 다른 버전의 직무가 성장해 왔습니다. ML 모델이 LLM(Large Language Model)이고, 파이프라인이 배치 추론 (batch inference) 대신 RAG (Retrieval-Augmented Generation) 검색을 실행하며, 분류기 (classifier)를 처음부터 구축하는 것만큼이나 AI 에이전트 (AI agents)를 오케스트레이션하는 역할이 포함된 직무입니다.

우리는 2026년 5월 기준 InterviewStack.io 채용 게시판에 있는 모든 활성 데이터 사이언티스트 (Data Scientist) 공고를 살펴보았습니다. 총 3,889개의 리스팅을 대상으로 AI 기술 언급을 추출하여 세대별(전통적인 ML 대 2023년 이후의 새로운 생성형 AI)로 분류했습니다. 헤드라인은 동시에 두 가지 방향으로 나뉩니다: 공고의 83.7%가 어떤 형태로든 AI를 언급하고 있지만, 그중 39.6%는 3년 전 직무 기술서에는 거의 나타나지 않았던 새로운 생성형 AI (generative AI) 기술을 명시적으로 요구하고 있습니다.

그 39.6%라는 수치는 실제 변화를 과소평가한 것입니다. 이는 LLM, RAG, AI 에이전트 (AI Agents), 또는 LangChain을 요구 사항으로 명시한 공고, 즉 AI 시스템을 구축하기 위해 데이터 사이언티스트 (Data Scientist)를 채용하는 기업만을 집계한 것입니다. 고용주 설문 조사와 개발자 데이터가 포착하는 주변 계층 (ambient layer)에 대해서는 아무것도 말해주지 않습니다. JetBrains의 2026년 4월 보고서에 따르면, 개발자의 90%가 업무에서 최소 하나 이상의 AI 도구를 정기적으로 사용합니다. 대부분의 현직 데이터 사이언티스트 (Data Scientists)가 매일 사용하는 GitHub Copilot, ChatGPT를 활용한 분석, AI가 생성한 노트북 스캐폴딩 (notebook scaffolding) 등은 직무 기술서에 나타나지 않습니다. 39.6%는 AI 책임의 깊이를 측정합니다. 하지만 모든 이들을 위한 기본 수준(floor) 자체가 높아졌습니다.

주요 결과 (Key Findings)

2026년 5월 기준, InterviewStack.io 채용 게시판에서 분석된 3,889개의 활성 데이터 사이언티스트 (Data Scientist) 채용 공고.

채용 공고의 83.7%가 어떤 형태로든 AI를 언급: 79.5%는 전통적인 머신러닝 (ML) 또는 딥러닝 (Deep Learning)을 요구하며, 39.6%는 차세대 생성형 AI (Generative AI) 기술 (LLMs, RAG, AI Agents, LangChain)을 명시적으로 요구함.

머신러닝 (Machine Learning)이 77.8%의 점유율로 모든 AI 기술 중 가장 앞서 있음; 생성형 AI 기술 중에서는 생성형 AI (Generative AI, 20.1%), LLMs (19.8%), AI 에이전트 (AI Agents, 17.1%), RAG (14.3%)가 가장 빠르게 성장하는 요구 사항임.

에너지 (Energy) 산업이 93.3%의 AI 도입률로 모든 산업 중 가장 높으며, 소매 (Retail, 52.3%), 금융 (Finance, 49.2%), 기술 (Technology, 48.0%)이 그 뒤를 이음.

미국 급여 신호는 직관에 반함: 차세대 AI 기술을 요구하는 공고의 미국 기본급 중앙값은 $125,000 (n=343)인 반면, AI를 전혀 요구하지 않는 공고는 $133,050 (n=152)임.

주니어 (Junior) 레벨 공고의 생성형 AI 포함률이 55.8%로 가장 높으며, 이는 미드 레벨 (Mid-level, 36.9%), 시니어 (Senior, 39.0%), 스태프 (Staff, 42.2%)보다 높음.

미국이 전체 공고의 40.7%를 차지하지만, 인도 (India, AI 도입률 58.0%)와 아랍에미리트 (UAE, AI 도입률 89.7%)가 자국 시장 내 AI 집중도 면에서 앞서 있음.

LLM 시대 이전의 데이터 사이언티스트 직무는 어떠했는가?

2021년과 2022년에 전형적인 데이터 사이언티스트 (Data Scientist) 직무는 Python과 SQL을 중심으로 하는 통계 모델링 역할이었습니다. 일반적인 채용 공고는 회귀 (Regression) 및 분류 (Classification) 경험, scikit-learn 또는 XGBoost에 대한 숙련도, 회사가 충분한 데이터 양을 보유한 경우 딥러닝 (Deep Learning) 능력, 그리고 기술적 지식이 없는 이해관계자에게 결과를 전달하는 능력을 요구했습니다. 모델 배포 (Model deployment)는 종종 다른 사람의 문제였습니다. 데이터 사이언티스트는 학습된 모델을 넘겨주면, 플랫폼 팀이 그 이후의 과정을 맡았습니다.

생성형 AI (Generative AI)의 물결은 실무에서 "데이터 사이언스를 수행한다"는 의미를 변화시켰습니다. MIT Sloan의 2026년 데이터 사이언스 트렌드 리뷰는 이러한 변화를 다음과 같이 포착합니다: "직함은 동일하지만, 업무는 그렇지 않습니다. 에이전트(Agents)를 오케스트레이션(Orchestrating)하고 가드레일(Guardrails)을 설계하는 것이 모든 단계를 수동으로 실행하던 것을 대체했습니다." (MIT Sloan Management Review, Five Trends in AI and Data Science for 2026). 과거에 역할을 정의했던 모델 학습 루프 (Model training loop)는 이제 검색 증강 생성 (RAG, Retrieval-Augmented Generation) 파이프라인, 미세 조정된 LLM (Fine-tuned LLMs), 그리고 인간의 개입 없이 도구를 호출하고, 출력값에 따라 분기하며, 의사결정을 라우팅하는 에이전트 워크플로우 (Agentic workflows)와 경쟁하고 있습니다.

이러한 전환은 해당 역할 주변의 생태계에서도 나타납니다. Data Science Collective의 2026년 채용 시장 분석에 따르면, 데이터 사이언티스트의 형제 역할인 AI/ML 엔지니어 (AI/ML Engineer) 채용 공고가 전년 대비 143% 증가했으며, 이는 데이터 사이언스와 AI 엔지니어링 사이의 경계가 얼마나 빠르게 허물어지고 있는지를 보여줍니다. 데이터 사이언스의 공용어인 Python은 또한 AI 툴링 생태계의 주요 언어이기도 합니다. 이는 데이터 사이언티스트들이 자신의 핵심 스택을 다시 학습할 필요 없이 이러한 변화를 흡수하기에 가장 유리한 위치에 있는 집단임을 의미합니다.

Stack Overflow Developer Survey 2025에 따르면 전문 개발자의 51%가 매일 AI 도구를 사용하고 있습니다. Python과 Jupyter 노트북 환경에서 활동하는 데이터 사이언티스트의 경우, 그 침투율은 확실히 더 높을 것입니다. 고용주들도 이 사실을 알고 있지만 채용 공고에 명시하지는 않습니다. 직무 기술서(Job description)는 비표준적인 사항을 나열할 뿐, 당연하게 여겨지는 사항을 나열하지는 않기 때문입니다.

현재 기업들이 데이터 사이언티스트에게 명시적으로 요구하는 것은 무엇인가?

AI adoption breakdown for Data Scientist postings: 83.7% any AI, 79.5% traditional ML, 39.6% new-wave gen AI

전통적인 ML, 새로운 물결의 생성형 AI(Generative AI), 또는 두 가지 모두를 언급하는 3,889개의 활성 데이터 사이언티스트(Data Scientist) 채용 공고 점유율.

전통적인 ML (머신러닝 (Machine Learning), 딥러닝 (Deep Learning), 트랜스포머 모델 (Transformer Models))은 데이터 사이언티스트 채용 공고의 79.5%에서 나타나며, 이는 지난 10년 동안 대부분의 기본값(baseline)이었습니다. 새로운 물결의 생성형 AI (LLM, 생성형 AI (Generative AI), RAG, AI 에이전트 (AI Agents), LangChain, 프롬프트 엔지니어링 (Prompt Engineering), 벡터 데이터베이스 (Vector Databases))는 채용 공고의 39.6%에 나타나는데, 이 점유율은 2023년 이전에는 사실상 제로에 가까웠습니다. 약 35.8%의 공고는 두 가지 모두를 요구하며, 이는 생성형 AI 데이터 사이언티스트 역할에서 가장 흔한 패턴입니다. 고용주들은 검색 파이프라인(retrieval pipeline)을 구축할 수 있으면서도, 모델의 동작, 평가 및 실패 모드(failure modes)를 추론할 수 있는 ML 기초 지식을 갖춘 사람을 원합니다.

전통적인 ML 기초가 전혀 없이 생성형 AI만을 요구하는 공고는 3.8%에 불과합니다. 이 분야는 고전적인 ML을 버리는 것이 아니라, 그 위에 생성형 AI를 계층적으로 쌓아 올리고 있는 것입니다. 이것이 지원자들에게 의미하는 바는, LangChain을 단독으로 배우기 위해 통계 및 ML 기초를 건너뛰는 것은 완전히 거꾸로 된 방식이라는 점입니다.

데이터가 보여줄 수 없는 것은 주변부 계층(ambient layer)입니다. 개발자의 약 90%가 업무에서 최소 하나 이상의 AI 도구(JetBrains, 2026년 4월)를 정기적으로 사용하고 있지만, 그러한 사용 경험이 직무 기술서(job description) 어디에도 나타나지는 않습니다. 2026년에 일하는 모든 데이터 사이언티스트는 AI 보조 워크플로우(AI-assisted workflows)를 사용하여 업무를 수행하고 있습니다. 채용 공고는 명시적이고 차별화되는 요구 사항을 반영할 뿐입니다. 그 외의 모든 것은 당연한 것으로 간주됩니다.

어떤 AI 기술이 데이터 사이언티스트의 역할을 재편하고 있는가?

Top AI skills in Data Scientist postings: Machine Learning 77.8%, Deep Learning 32.1%, Generative AI 20.1%, LLMs 19.8%, MLOps 18.8%, AI Agents 17.1%, RAG 14.3%, LangChain 8.6%, Prompt Engineering 8.0%, Vector Databases 5.8%

각 AI 기술을 언급한 3,889개의 데이터 사이언티스트 (Data Scientist) 채용 공고 비율. "new-wave"로 표시된 기술은 2023년 또는 그 이후에 등장했습니다.

머신러닝 (Machine Learning, 77.8%)과 딥러닝 (Deep Learning, 32.1%)은 기존의 토대이며, 생성형 AI (Generative AI) 시대 이전부터 데이터 사이언티스트 채용 공고에 존재해 왔습니다. 가장 빠르게 성장하는 요구 사항은 별도로 이해해야 할 두 가지 계층으로 나뉩니다. 바로 new-wave 생성형 AI 기술과 MLOps (생성형 AI 이전부터 존재했으나 LLM의 프로덕션 배포와 함께 가속화된 운영 전문 분야)입니다.

15-20% 계층: 현재 많은 기업에서 기대되는 역량

생성형 AI (Generative AI, 20.1%)와 LLM (Large Language Models, 19.8%)은 이제 데이터 사이언티스트 채용 공고 약 5개 중 1개꼴로 등장합니다. 이는 소수의 특수한 신호가 아닙니다. 이는 언어 모델 (Language Model) 역량을 전문 분야가 아닌 상시적인 기대치로서 데이터 사이언스 업무에 통합한 기업들을 나타냅니다. ML 모델을 프로덕션 환경에서 안정적으로 배포하고 모니터링하기 위한 일련의 관행인 MLOps (18.8%)가 성장하고 있는 이유는, 프로덕션 환경의 LLM이 전통적인 배치 (Batch) 모델보다 운영 측면에서 더 복잡하기 때문입니다. LLM은 드리프트 (Drift) 현상이 발생하고, 환각 (Hallucination)을 일으키며, 기존의 모델 모니터링이 다루지 못하는 평가 프레임워크 (Evaluation Framework)를 필요로 합니다.

AI 에이전트 (AI Agents, 17.1%)는 이 목록에서 가장 빠르게 움직이는 항목입니다. 모델들이 협업하고, 의사결정을 라우팅하며, 외부 도구를 자율적으로 호출하는 시스템을 오케스트레이션 (Orchestrating)하는 것은 2022년 데이터 사이언티스트 직무 기술서에는 사실상 존재하지 않았습니다. 이제는 채용 공고 약 6개 중 1개꼴로 등장하며, AI 에이전트를 명시한 데이터 사이언티스트 채용 공고는 해당 역할 카테고리 내에서 가장 엔지니어링 집약적인 경향을 보입니다. RAG, 즉 검색 증강 생성 (Retrieval-Augmented Generation, 학습된 지식에만 의존하는 대신 기업 자체 데이터에 LLM 응답의 근거를 두는 패턴)은 채용 공고의 14.3%에 등장하며, 데이터 사이언티스트가 구축하고 유지 관리하는 엔터프라이즈 AI 제품의 지배적인 아키텍처 패턴이 되었습니다.

5-10% 계층: 지금 구축해 두면 차별화가 될 역량

LangChain (LLM 기반 애플리케이션 구축을 위한 Python 프레임워크로, 채용 공고의 8.6%에서 등장) 및 그 그래프 기반 확장 기능인 LangGraph (상태 유지형 멀티스텝 에이전트 워크플로우 (stateful, multi-step agent workflows) 구축을 위한 도구로, 3.2%에서 등장)는 프레임워크 특화 요구사항입니다. 이를 명시한 기업들은 명확한 아키텍처 선택을 내렸으며, 해당 툴체인 (toolchain)을 숙지한 실무자를 원한다는 것을 의미합니다. 프롬프트 엔지니어링 (Prompt Engineering, 8.0%)은 데이터 사이언티스트가 단순히 기초 모델 (underlying model)뿐만 아니라 상호작용 및 평가 계층 (interaction and evaluation layer)까지 담당하는 기업에서 명시적으로 나타납니다. 벡터 데이터베이스 (Vector Databases, 5.8%)는 RAG 및 임베딩 기반 검색을 위한 저장 계층입니다. 17개의 공고 중 하나가 이를 요구하고 있으며, 이는 생성형 AI (gen AI) 역할을 목표로 하는 후보자들에게 유의미한 차별화 요소가 되기에 충분한 수치입니다. RAG를 요구하는 데이터 사이언티스트 채용 공고는 거의 항상 이를 LLM 및 벡터 데이터베이스 기술과 결합하여 하나의 일관된 스택 (stack)으로 다룹니다.

종합적인 그림은 다음과 같습니다: 전통적인 머신러닝 (ML) 유창함은 여전히 입장을 위한 입장권이며, 요구사항의 두 번째 계층은 이제 생성형 AI 스택을 통해 흐르고 있습니다. LLM 평가, RAG 아키텍처의 트레이드오프 (tradeoffs), 또는 기본적인 에이전트 오케스트레이션 (agent orchestration)에 대해 논할 수 없는 데이터 사이언티스트는 면접관이 조사할 비중이 점점 커지는 영역을 놓치고 있는 것입니다.

AI와 함께 일하면 데이터 사이언티스트의 연봉이 올라갈까?

급여가 공개된 미국 내 채용 공고를 살펴보면, 수치는 여러분의 예상과는 다르게 나타납니다. 모든 수치는 미국 기본급 (US base salary) 기준입니다. 지분 (equity), RSU, 보너스 및 사이닝 보너스 (sign-on)는 채용 공고 데이터에 포함되지 않았으며, 특히 지분 구조가 공격적인 AI 네이티브 기업의 경우, 최고 수준 기업들의 총 보상 (total compensation)은 여기서 보고하는 것보다 유의미하게 더 높습니다.

Median US base salary: Data Scientist postings with new-wave AI $125,000 (n=343) vs without any AI $133,050 (n=152)

새로운 물결의 생성형 AI (Generative AI) 요구 사항이 포함된 데이터 사이언티스트 (Data Scientist) 채용 공고와 AI 요구 사항이 없는 공고의 미국 내 기본 급여 중앙값 비교. 미국 내 공고 중 기본 급여가 공개된 경우만 해당.