2026년 데이터 엔지니어 로드맵 (AI 네이티브 세상에서)

이 글은 저희의 무료 인터랙티브 Data Engineer Roadmap의 내레이션 버전입니다. 동일한 영역과 동일한 순서를 유지하되, 각 레이어에서 여러분에게 요구하는 것 중 AI가 대신해 줄 수 없는 단 한 가지에 초점을 맞췄습니다.

2025년 초 이전에 작성된 모든 데이터 엔지니어 로드맵은 동일한 암묵적인 가정을 하고 있었습니다. 바로 어려운 부분이 _코드를 작성하는 것_이라는 점입니다. SQL을 배우세요. Python을 배우세요. Airflow로 파이프라인을 연결하세요. 배포하세요. 축하합니다, 당신은 데이터 엔지니어입니다.

그 가정은 이제 끝났습니다. 이제 AI가 SQL을 작성합니다. AI는 DAG, PySpark 작업, dbt 모델, 마스킹 정책 (masking policy)을 작성하며, 새벽 2시에 불평 한마디 없이 당신보다 더 빠르게 작성합니다. 만약 당신의 로드맵이 _그 코드를 생성하기 위해 배워야 할 도구들_의 체크리스트라면, 당신은 이미 끝난 경주를 위해 훈련하고 있는 것입니다.

따라서 2026년 로드맵은 다른 형태를 띠어야 합니다. "파이프라인을 작성하기 위해 무엇을 배워야 하는가"가 아니라, **"AI가 작성한 파이프라인이 맞는지 판단하고, 틀렸을 때 수정하기 위해 무엇을 이해해야 하는가"**가 되어야 합니다. 이것은 도구의 목록이 아니라 _깊이(depth)_의 지도입니다.

전체 지도를 작동하게 만드는 단 하나의 아이디어

대부분의 로드맵은 시니어(senior)가 되는 과정을 _새로운 영역이 나타나는 것_으로 그립니다. 주니어(junior)는 SQL과 dbt를 하고, 시니어는 Kafka와 Spark, Kubernetes를 한다는 식입니다. 하지만 실제로는 그렇게 작동하지 않습니다.

시니어 엔지니어는 주니어가 다루는 것과 동일한 영역에서 일합니다. 차이점은 각 영역을 얼마나 깊게 파고드느냐에 있습니다.

주니어는 Parquet가 "빠른 컬럼형 포맷(columnar format)"이라는 것을 알고 테이블을 파티셔닝(partition)할 수 있습니다. 시니어는 로우 그룹(row groups), 페이지 통계(page statistics), 딕셔너리 인코딩(dictionary encoding), 그리고 스캔 비용이 왜 그렇게 발생했는지에 대해 추론합니다. 주니어는 Spark 작업을 작성합니다. 시니어는 그 작업의 셔플(shuffle)과 스큐(skew)를 디버깅합니다. 주제는 같지만, 고도가 다릅니다.

이것은 그 어느 때보다 중요합니다. 왜냐하면 AI가 바닥(floor)을 대략 주니어 수준까지 끌어올렸기 때문입니다. AI는 파티셔닝된 테이블과 작동하는 Spark 작업을 안정적으로 만들어냅니다. 그 선 위의 깊이는 AI가 당신을 대신해 추론할 수 없는 영역이며, 바로 그 지점이 현재 당신의 커리어 가치가 존재하는 곳입니다.

따라서 각 영역을 살펴볼 때, 다음과 같은 패턴을 주목하십시오: AI는 표면(surface)을 다루고, 당신은 깊이(depth)를 소유합니다.

기초 및 SQL (Foundations and SQL)

조인 (Joins), 윈도우 함수 (window functions), CTEs, Python, 커맨드 라인 (command line), Git, ETL 대 ELT.

이제 AI가 이 중 거의 모든 것을 작성합니다. 그렇다고 해서 SQL이 선택 사항이 되는 것은 아닙니다. 오히려 그것은 기본 요건 (table stakes)이 됩니다. 당신이 SQL을 배우는 이유는 단순히 쿼리를 생성하기 위해서가 아니라, 생성된 쿼리가 조용히 틀렸을 때 이를 잡아내기 위해서입니다. 데이터가 뻥튀기되어 매출을 중복 계산하는 조인 (join), NULL 값을 소리 없이 누락시키는 WHERE 절, 한 행 차이로 어긋나는 윈도우 프레임 (window frame) 같은 것들 말입니다. 시니어의 깊이는 EXPLAIN 실행 계획을 읽고 쿼리가 왜 느린지 그 이유를 아는 데 있습니다. AI는 당신에게 쿼리를 건네주지만, 그것을 이해하는 것은 여전히 당신의 몫입니다.

데이터 모델링 및 변환 (Data modeling and transformation)

차원 모델링 (Dimensional modeling), 스타 스키마 (star schema) 및 스노우플레이크 스키마 (snowflake schema), 팩트 테이블 (fact table) 대 차원 테이블 (dimension table), dbt 모델 및 테스트. 그리고 그 너머의 깊이: 서서히 변하는 차원 (Slowly Changing Dimensions, SCD), 입도 (grain), 정형 차원 (conformed dimensions), One Big Table 패턴, 데이터 볼트 (Data Vault).

AI는 모델의 초안을 작성합니다. 하지만 AI가 할 수 없는 것은 판단 (judgement calls)입니다. 이 팩트 테이블의 입도(grain)는 무엇인지, 세 개의 소스 시스템 전체에서 "한 명의 고객"은 무엇을 의미하는지, 어떤 차원이 마트(marts) 전체에 걸쳐 정형(conformed)되어 있는지와 같은 것들입니다. 전형적인 함정은 서서히 변하는 차원 (SCD)입니다. 누구나 그 유형은 암기할 수 있지만, 자신의 팩트가 차원의 어떤 버전과 조인되는지를 내재화하고 있는 사람은 거의 없습니다. 이를 잘못 처리하면 "지난 분기 지역별 매출" 보고서에 한 번도 존재한 적 없는 숫자가 찍히게 됩니다.

브라우저에서 바로 실행 가능한 무료 SCD Playground에서 변경 타임라인을 직접 재현해 본 다음, Dimensional Data Modeling 트랙에서 해당 영역을 연습해 보세요.

오케스트레이션 및 파이프라인 (Orchestration and pipelines)

Airflow DAGs, 스케줄링 (scheduling), 센서 (sensors), 백필 (backfills), 재시도 (retries), 멱등성 (idempotency). 시니어의 영역: 스케줄러 및 실행기 (executor) 내부 구조, 데이터 인지 스케줄링 (data-aware scheduling), 리니지 (lineage), 신선도 SLA (freshness SLAs), 온콜 (on-call) 대응.

AI는 DAG (Directed Acyclic Graph)를 생성하며, 그것을 매우 잘 수행합니다. 하지만 AI가 생성하지 못하는 것은 해당 작업에 실제로 요구되는 _실패 모드에 대한 이해 (understanding of failure modes)_입니다. 왜냐하면 여기서의 진짜 업무는 정상적인 경로 (happy path)가 아니라, 새벽 3시에 울리는 호출 (3am page)이기 때문입니다. 왜 이 태스크가 멈춰 있는가? 왜 백필 (backfill) 과정에서 중복 쓰기 (double-write)가 발생했는가? 이 재시도 (retry)는 안전한가, 아니면 방금 동일한 이메일을 두 번 보낸 것인가? 멱등성 (Idempotency)은 AI가 뿌려주는 코드 조각이 아니라, 당신이 논리적으로 추론해야 하는 속성입니다. Orchestration and Pipelines 트랙을 확인하세요.

스토리지 및 파일 형식 (Storage and file formats)

Parquet, 행(row) vs 열(columnar) 방식, 압축 (compression), 객체 스토리지 (object storage), 파티셔닝 (partitioning). 시니어 레벨: 로우 그룹 (row groups), 페이지 통계 (page statistics), 프레디케이트 푸시다운 (predicate pushdown), 인코딩 (encoding), 작은 파일 문제 (the small-file problem), ORC, Avro 및 Arrow의 내부 구조.

이 영역은 AI가 가장 쓸모없고 깊이 있는 지식이 가장 큰 보상을 받는 곳입니다. 왜냐하면 스캔 비용이 왜 발생하는지는 쿼리 텍스트가 아니라 디스크 상의 바이트 (bytes on disk)의 속성이기 때문입니다. AI는 Parquet를 잘 읽고 쓰지만, 동일한 행을 가진 두 파일의 스캔 비용이 왜 10배나 차이 나는지는 알려줄 수 없습니다. 그것은 로우 그룹 크기 지정, 인코딩 선택, 그리고 최소/최대 통계 (min/max statistics)가 엔진으로 하여금 페이지를 건너뛰게(skip) 할 수 있는지 여부에 달려 있습니다.

무료 Parquet Viewer를 본인의 파일에 적용하여 (100% 브라우저 내에서 작동하며, 아무것도 업로드되지 않음) 로우 그룹과 통계를 직접 확인해 보세요. 트랙: Storage and File Formats.

데이터 레이크 및 테이블 형식 (Data lakes and table formats)

레이크 (Lake) vs 웨어하우스 (warehouse) vs 레이크하우스 (lakehouse), Iceberg 및 Delta, 타임 트래블 (time travel), 스키마 진화 (schema evolution). 시니어 레벨: ACID 및 스냅샷 격리 (snapshot isolation) 내부 구조, 컴팩션 (compaction), 카탈로그 (catalogs), Iceberg vs Delta vs Hudi의 트레이드오프 (tradeoffs).

AI는 테이블 연산(table operations)을 즐겁게 수행합니다. 하지만 당신에게 경고해주지 않으면서 당신을 괴롭힐 부분은 바로 두 명의 작성자(writers)가 동시에 커밋(commit)할 때 발생하는 일입니다. 스냅샷 격리 (Snapshot isolation), 낙관적 동시성 제어 (optimistic concurrency), 충돌 해결 (conflict resolution), 인제스트(ingest) 작업과 충돌하는 컴팩션 (compaction): 이것은 자동 완성(autocomplete)의 영역이 아니라 분산 시스템 (distributed-systems) 추론의 영역입니다. 학습 경로: Open Table Formats.

인제스트 (Ingestion) 및 스트리밍 (streaming)

배치 인제스트 (Batch ingestion), Kafka 기초, 프로듀서 (producers)와 컨슈머 (consumers), 이벤트 시간 (event time) 대 처리 시간 (processing time). 시니어 레벨: 정확히 한 번 (exactly-once) 의미론 (semantics), 컨슈머 그룹 리밸런싱 (consumer group rebalancing), 변경 데이터 캡처 (Change Data Capture, CDC), Flink 또는 Kafka Streams를 이용한 스트림 처리 (stream processing).

AI는 프로듀서와 컨슈머를 작성합니다. AI가 침묵하는 지점, 즉 데이터 품질 버그가 실제로 발생하는 곳은 다음과 같습니다: 윈도우 집계 (windowed aggregates)를 틀리게 만드는 이벤트 시간과 처리 시간 사이의 간극, 배치(batch)를 재처리하게 만드는 리밸런싱, 오프셋(offsets) 커밋 방식 때문에 '정확히 한 번 (exactly-once)' 보장이 아닌 '최소 한 번 (at-least-once)'에 그치게 된 상황. 학습 경로: Ingestion and Transport.

분산 컴퓨팅 (Distributed compute)

Spark DataFrames, 변환 (transformations) 대 액션 (actions), 지연 평가 (lazy evaluation). 시니어 레벨: 셔플 (shuffle) 및 파티셔닝 (partitioning), 브로드캐스트 조인 (broadcast joins) 및 데이터 왜곡 (data skew), Catalyst 및 코드 생성 (codegen), 메모리 및 결함 허용 (fault tolerance).

AI는 변환(transformation) 코드를 작성합니다. 하지만 AI는 *실행 (execution)*을 튜닝할 수 없습니다. 왜 이 작업이 디스크로 스필 (spill) 되었을까요? 왜 하나의 태스크가 다른 199개의 태스크보다 40배나 더 오래 걸릴까요 (데이터 왜곡의 등장)? 이 조인(join)은 브로드캐스트(broadcast)를 해야 할까요, 아니면 셔플(shuffle)을 해야 할까요? 논리적 데이터프레임 (logical DataFrame)이 클러스터 전체에서 어떻게 물리적 작업 (physical work)으로 변하는지에 대한 이러한 추론은 온전히 당신의 몫입니다. 학습 경로: Compute Engines.

쿼리 엔진 (Query engines) 및 OLAP

OLAP이란 무엇인가, 웨어하우스 (warehouse) 대 쿼리 엔진 (query engine), ClickHouse, Trino. 시니어 레벨: MergeTree 및 프로젝션 (projections), 페더레이션 (federation) 및 푸시다운 (pushdown), 실행 모델 (execution models), 비용 기반 최적화 (cost-based optimization), 실시간 OLAP, EXPLAIN 문법 숙련도.

AI가 대시보드에서 실행될 SQL을 작성합니다. 해당 대시보드가 왜 느린지, 그리고 쿼리를 다시 작성하는 대신 엔진 수준에서 이를 어떻게 해결할지는 시니어(Senior)의 영역입니다. 이는 엔진이 데이터를 정렬하고 병합하는 방식, 푸시다운 (push down) 할 수 있는 항목, 그리고 옵티마이저 (optimizer)가 무엇을 선택했는지에 달려 있습니다. 학습 경로: Query Engines and OLAP.

시맨틱 및 메트릭 레이어 (Semantic and metrics layer)

메트릭 (Metrics) 및 대시보드, 시맨틱 레이어 (semantic layer), 데이터 품질 테스트 (data-quality tests). 시니어: 데이터 계약 (data contracts), 스키마 레지스트리 (schema registries), 메트릭 거버넌스 (metric governance), 역 ETL (reverse ETL).

AI가 메트릭 정의 초안을 작성합니다. 하지만 AI가 할 수 없는 것은 재무, 영업, 제품 부서 전체에서 "매출"이 정확히 한 가지 의미를 갖도록 만드는 조직적 작업입니다. 그것은 협상되고, 관리되며, 강제되는 인간의 계약이며, 데이터가 일곱 개의 상충하는 스프레드시트가 아닌 마침내 공유된 비즈니스 언어로 변하는 레이어입니다.

거버넌스, 품질 및 클라우드 (Governance, quality and cloud)

PII (개인정보) 기초, GDPR 및 CCPA, 클라우드, 데이터용 CI/CD. 시니어: 마스킹 (masking) 및 토큰화 (tokenization), 행 및 열 액세스 제어 (row and column access control), 레이크하우스 (lakehouse) 전반의 삭제 권리 (right-to-erasure) 보장, 코드형 인프라 (infrastructure as code), 대규모 데이터 관측성 (data observability).

AI는 명백한 PII 컬럼을 찾아냅니다. 하지만 타임 트래블 (time travel)과 불변 스냅샷 (immutable snapshots)이 있는 레이크하우스 전반에 걸쳐 삭제 권리를 설계하는 것은 AI가 할 수 없습니다. 그것은 자동 완성 (autocomplete)이 아니라 아키텍처 (architecture)이기 때문입니다. 마스킹 자체도 보장을 깨뜨리는 함정들로 가득합니다. 솔트 (salt)를 사용하지 않은 해시 (hash)는 룩업 테이블 (lookup table)과 다름없으며, 다섯 자리를 유지한 채 삭제된 우편번호는 여전히 개인을 재식별할 수 있습니다. 무료 PII Masking Policy Generator를 사용하여 DDL을 생성하세요. 학습 경로: PII and Data Governance.

그렇다면, AI가 데이터 엔지니어를 대체할까요?

AI는 하한선을 높이고 가치의 위치를 위로 이동시킵니다.

이제 AI는 기존 주니어들의 체크리스트인 쿼리, DAG, 글루 코드 (glue code), 상용구 파이프라인 (boilerplate pipelines)을 잘 수행합니다. 여러분에게 남은 것은 시스템에 대해 추론하는 지속 가능한 부분입니다. 왜 스캔 (scan) 비용이 그만큼 발생하는지, 두 명의 작성자 (writers)가 커밋 (commit)할 때 어떤 일이 일어나는지, 왜 작업이 디스크로 스필 (spill) 되었는지와 같은 것들 말입니다.

AI는 그러한 깊이를 이해하는 엔지니어를 대체하는 것이 아니라, 그들에게 레버리지 (leverage)를 제공합니다. 엔지니어는 표면적인 작업은 AI를 통해 지시하고, AI가 도달할 수 없는 부분에 자신의 판단력을 쏟습니다. 표면적인 부분만 알았던 엔지니어가 현재 압박을 받는 이유는, 그 표면적인 작업들이 무료가 되었기 때문입니다.

이것이 이 로드맵의 전체 전제입니다. 여러분은 초기에 모든 영역을 접하게 됩니다. 주니어와 시니어 모두 동일한 영역을 다룹니다. 커리어 전반에 걸쳐 확장되는 것은 각 영역에 얼마나 깊게 파고드느냐이며, 그 깊은 곳이야말로 바로 AI가 여러분을 대신해 지름길로 갈 수 없는 부분입니다.

**전체 인터랙티브 데이터 엔지니어 로드맵 열기**를 통해 모든 주제를 하나의 타임라인에서 확인해 보세요. 각 레이어의 깊이를 보여주는 "시니어 되기 (Going senior)" 토글 기능이 포함되어 있습니다. 만약 슬라이드 자료가 아닌 실제 엔진을 통해 그 깊이를 연습하고 싶다면, 커리큘럼 (curriculum)과 무료 브라우저 기반 도구 (in-browser tools)가 그 용도로 만들어졌습니다.

원문은 Petascale Labs 블로그에 게시되었습니다.