DataTalksClub/data-engineering-zoomcamp
요약
데이터 파이프라인 구축을 위한 실무 중심의 데이터 엔지니어링 교육 과정입니다. GCP, Docker, Terraform, Spark, Kafka 등 업계 표준 도구를 활용하여 기초부터 프로젝트 완성까지 다룹니다.
핵심 포인트
- GCP, Docker, Terraform을 활용한 인프라 및 환경 설정
- Kestra, dbt, Bruin을 이용한 워크플로 및 데이터 모델링
- BigQuery와 Spark를 활용한 데이터 처리 및 머신러닝
- Kafka를 통한 실시간 스트리밍 데이터 관리
- 실제 시나리오 기반의 엔드투엔드 프로젝트 수행
처음부터 끝까지 이어지는 데이터 파이프라인 (data pipeline)을 구축함으로써 데이터 엔지니어링 (data engineering)의 기초를 마스터하세요. 업계 표준 도구와 모범 사례 (best practices)를 통해 실무 경험을 쌓을 수 있습니다.
Slack 참여 • #course-data-engineering 채널 • Telegram 공지 • 코스 재생목록 • FAQ
시작일: 2026년 1월 12일
등록하기: 신청하기
모든 강의 자료는 독학을 위해 무료로 제공됩니다. 다음 단계를 따르세요:
- 강의 영상을 시청하세요.
- Slack 커뮤니티에 참여하세요.
- 안내를 위해 FAQ 문서를 참조하세요.
이 코스는 학습을 강화하기 위한 구조화된 모듈, 실습 워크숍, 그리고 최종 프로젝트로 구성되어 있습니다.
이 코스를 최대한 활용하기 위해 갖추어야 할 사항은 다음과 같습니다:
- 기본적인 코딩 경험
- SQL에 대한 익숙함
- Python 경험 (도움이 되지만 필수 사항은 아님)
사전 데이터 엔지니어링 경험은 필요하지 않습니다.
-
GCP (Google Cloud Platform) 소개
-
Docker 및 Docker Compose
-
Docker를 사용한 PostgreSQL 실행
-
Terraform을 이용한 인프라 (infrastructure) 설정
-
숙제
-
데이터 레이크 (Data Lakes) 및 워크플로 오케스트레이션 (Workflow Orchestration)
-
Kestra를 이용한 워크플로 오케스트레이션
-
숙제
-
API 읽기 및 파이프라인 확장성 (scalability)
-
데이터 정규화 (normalization) 및 증분 로딩 (incremental loading)
-
숙제
-
BigQuery 소개
-
파티셔닝 (Partitioning), 클러스터링 (clustering) 및 모범 사례
-
BigQuery에서의 머신러닝 (machine learning)
-
분석 엔지니어링 (Analytics Engineering) 및 데이터 모델링 (Data Modeling)
-
DuckDB 및 BigQuery를 활용한 dbt (data build tool)
-
테스트, 문서화 및 배포 (deployment)
-
Bruin을 이용한 엔드투엔드 데이터 파이프라인 구축
-
데이터 수집 (ingestion), 변환 (transformation) 및 품질 (quality)
-
클라우드 (BigQuery)로의 배포
-
Apache Spark 소개
-
DataFrames 및 SQL
-
GroupBy 및 Join의 내부 동작 원리
-
Kafka 소개
-
Kafka Streams 및 KSQL
-
Avro를 이용한 스키마 (schema) 관리
-
실제 시나리오에 학습한 모든 개념 적용
-
동료 검토 (peer review) 및 피드백 프로세스
당신이 하는 일에 감사드립니다! Data Engineering Zoomcamp는 제가 첫 번째 기술 직무를 얻는 데 도움이 된 기술들을 제공해 주었습니다.
— Tim Claytor (출처)
3개월이라는 시간이 길게 느껴질 수도 있지만, 이 기간 동안의 성장과 배움은 정말 놀랍습니다. 전 세계의 뜻이 맞는 사람들과 연결되고, 즐거움을 느끼며 많은 것을 배울 수 있었던 멋진 경험이었습니다. 솔직히 말해서 정말 힘들었습니다. 하지만 성취감과 배움의 기쁨이 그 모든 것을 가치 있게 만들었습니다. 저는 다시 도전할 의사가 있습니다!
— Nevenka Lukic (출처)
Zoomcamp를 통해 얻은 중요한 깨달음 중 하나는 끊임없이 진화하는 도구(tools)와 기술 스택(tech stacks)보다 기본 원칙(fundamentals and principles)을 우선시해야 한다는 것입니다. 이 놀라운 코스를 구성하고 무료로 제공해 주신 Alexey Grigorev에게 진심으로 감사드립니다.
데이터 엔지니어링 (data engineering), 클라우드 자동화 (cloud automation), 그리고 오케스트레이션 (orchestration)에 대한 정말 즐거운 심층 탐구였습니다. 과정 내내 정말 많은 것을 배웠습니다. 3개월간의 무료 코스 동안 기회를 제공하고 안내해 주신 Alexey Grigorev와 DataTalksClub 팀에게 큰 감사를 전합니다.
— Assitan NIARE (출처)
데이터 엔지니어링 분야로 진입하는 것에 진심이라면, 여기서 시작하세요. 이 저장소(repo)의 구조, 커뮤니티, 그리고 실습 중심의 방식은 타의 추종을 불허합니다.
— Wady Osama (출처)
토론, 문제 해결(troubleshooting), 그리고 네트워킹을 위해 DataTalks.Club Slack의 #course-data-engineering 채널에 참여하세요.
토론을 체계적으로 유지하기 위해:
- 질문을 게시할 때는 우리의 가이드라인을 준수해 주세요.
- 커뮤니티 가이드라인을 검토해 주세요.
이전 강사진:
이 이니셔티브를 가능하게 해준 코스 후원사분들께 특별한 감사를 전합니다!
우리 커뮤니티를 지원하는 데 관심이 있으신가요? alexey@datatalks.club으로 연락해 주세요.
DataTalks.Club은 데이터 애호가들의 글로벌 온라인 커뮤니티입니다. 이곳은 데이터를 논의하고, 배우고, 지식을 공유하며, 질문과 답변을 주고받고, 서로를 지원하는 공간입니다.
DataTalks.Club의 모든 활동은 주로 Slack에서 이루어집니다. 우리는 그곳에 업데이트를 게시하고 데이터의 다양한 측면, 커리어 관련 질문 등을 논의합니다.
DataTalksClub에서는 온라인 이벤트, 커뮤니티 활동, 그리고 무료 코스를 조직합니다. 우리가 DataTalksClub에서 무엇을 하는지에 대해 더 자세히 알고 싶다면 DataTalksClub 커뮤니티 내비게이션(Community Navigation)을 확인하세요.
AI 자동 생성 콘텐츠
본 콘텐츠는 GitHub Trending Jupyter Notebook (weekly)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기