본문으로 건너뛰기

© 2026 Molayo

Zenn헤드라인2026. 05. 31. 10:50

Databricks가 지난 반년 동안 완전히 다른 장르가 된 이야기

요약

Databricks가 지난 반년 동안 데이터 웨어하우스 기업에서 애플리케이션 플랫폼 기업으로 급격히 변모했습니다. Lakebase, Genie Code, Lakeflow Designer 등 신규 제품군을 통해 OLTP와 분석을 통합하고 AI 에이전트 백엔드 시장까지 공략하고 있습니다.

핵심 포인트

  • Lakebase 출시로 Aurora 등 매니지드 Postgres 시장에 도전
  • Lakehouse Sync를 통한 실시간 OLTP-분석 데이터 통합 구현
  • Genie Code를 활용한 자연어 기반 데이터 파이프라인 생성
  • Lakeflow Designer를 통한 노코드(No-code) ETL 환경 제공

결론

2026년의 Databricks는 더 이상 "분석 기반(Analysis Platform)"이라고 부를 수 있는 물건이 아니게 되었다.

Lakebase로 Aurora 시장에 도전장을 내밀고, Genie Code로 자연어 파이프라인을 생성하며, Lakeflow Designer로 노코드 (No-code) ETL을 제공하고, Lakeflow Connect Free Tier로 Fivetran 시장을 탈취했다. 단 반년 만에 데이터 웨어하우스(Data Warehouse) 회사에서 애플리케이션 플랫폼(Application Platform) 회사로 변모했다.

그리고 이러한 움직임은 일본의 데이터 엔지니어에게 최근 몇 년간 가장 큰 기회가 될 가능성이 높다.

대략적으로 Databricks가 지난 반년 동안 커버한 영역은 다음과 같다.

녹색은 기존의 주전장, 주황색은 반년 만에 확장한 신규 영역이다. 이하, 그 이유를 하나씩 기술한다.

반년 동안 무슨 일이 일어났는가

순서대로 되돌아보면 다음과 같다.

Lakebase — 서버리스 Postgres가 GA

2026년, Databricks가 매니지드 Postgres를 GA(General Availability)했다. "Lakebase"라는 이름으로, Aurora나 Cloud SQL, Cosmos DB for PostgreSQL의 장르에 정면으로 도전하는 형태가 되었다.

일반적인 매니지드 Postgres가 아니라 흥미로운 점은 Lakehouse Sync라는 기능이다. Postgres에 기록된 데이터가 Unity Catalog가 관리하는 Delta 테이블로 CDC(Change Data Capture)를 통해 거의 실시간으로 레플리케이션(Replication)된다.

즉, OLTP에 쓰는 순간 분석 쿼리(Analysis Query)로 사용할 수 있다. 지금까지 Aurora → DMS → Glue → Snowflake와 같은 파이프라인을 구축해야 했던 것이 토글 하나로 해결된다.

빨간색은 기존, 녹색은 Lakebase 구성이다. 중간에 끼어들던 ETL 인프라와 그 운영 비용이 통째로 사라진다는 것이 Lakebase의 눈에 띄지 않지만 본질적인 임팩트다.

공식 문서인 Azure Databricks Lakebase is Generally Available에서 자세한 내용을 확인할 수 있다.

개인적으로 이것은 AI 에이전트(AI Agent)의 백엔드를 겨냥한 것이라고 생각한다. 대화 이력, 도구 실행 로그, 사용자 상태. AI 에이전트는 버스트 워크로드(Burst Workload) 상황에서 상태 관리도 필요하며, 게다가 Lakehouse의 지식 베이스와 연결되어 있지 않으면 어렵다. 이를 전부 한꺼번에 해결하도록 설계되어 있다.

Genie Code — 자연어로 데이터 파이프라인 생성

Genie Code는 자연어 지시로부터 PySpark나 SQL 파이프라인을 생성하는 AI 어시스턴트다.

공식 블로그인 Agentic data engineering with Genie Code and Lakeflow에 따르면, "기존에는 수 주가 걸리던 태스크를 수 시간 만에 완료할 수 있다"라고 적혀 있다.

이것이 GitHub Copilot이나 Cursor와 다른 점은, Unity Catalog의 메타데이터와 기존 Notebook의 컨텍text를 이해한 상태에서 코드를 작성한다는 점이다. Databricks 환경의 베스트 프랙티스(Auto Loader, DLT, Photon 최적화)를 반영한 출력이 나온다.

범용 코딩 AI가 흉내 낼 수 없는 영역에 발을 들이고 있으므로, Copilot 사용자라도 병용할 가치가 있다.

Lakeflow Designer — 노코드 ETL이 무료

이것이 개인적으로 가장 임팩트가 크다.

Lakeflow Designer는 드래그 앤 드롭으로 데이터 파이프라인을 구축할 수 있는 노코드(No-code) 툴이다. 현재 Public Preview로 제공 중이다.

Alteryx Designer나 Informatica가 수행하는 영역인데, 이러한 기존 툴들은 사용자 단위 라이선스로 1사용자당 연간 수천~수만 USD가 든다. 조직 전체로 확장하려고 하면 수천만 엔 단위의 비용이 발생한다.

Databricks는 **"사용자 단위 과금 제로, 컴퓨트(Compute)만 과금"**이라는 요금 체계를 내놓았다. 이는 중규모 기업의 의사결정을 완전히 바꿀 것이다.

게다가, 생성되는 것이 프로덕션 품질의 Python 코드다. Git으로 관리할 수 있고, 엔지니어가 나중에 수정할 수도 있다. "노코드로 시제품 제작 → 엔지니어가 다시 작성"하는 번거로움이 사라진다.

Lakeflow Connect Free Tier — Fivetran 킬러

2026년 FabCon에서 Lakeflow Connect Free Tier가 발표되었다.

각 워크스페이스(Workspace)에 하루 100 DBU의 무료 한도가 제공되며, 이는 하루 약 1억 개의 레코드(Record)를 수집하는 것에 해당한다. HubSpot, Salesforce, Google Analytics, Snowflake, BigQuery... 주요 SaaS/DB 커넥터(Connector)가 모두 대상이다.

Fivetran에 매달 수십만 엔을 지불하던 기업이 거의 0원에 가까운 비용으로 동일한 작업을 수행할 수 있게 된다. 연간 환산 시 워크스페이스당 약 190만 엔 상당의 비용 보조가 되는 셈이다.

스타트업이 처음부터 전문가 수준의 데이터 기반(Data Infrastructure)을 구축할 수 있는 시대가 되었다는 것이 솔직한 소감이다.

일본 시장에서 무슨 일이 일어나고 있는가

여기서부터는 일본 이야기다.

Databricks Japan은 2026년 1분기에 전년 대비 100% 초과 성장을 기록했으며, 도쿄 오피스를 신마루노우치 빌딩으로 이전했다.

도입 기업을 살펴보면, Aeon, Kansai Electric Power Transmission & Distribution, Cosmo Energy, Tokyo Gas, Toyota, Mizuho, Sumitomo Mitsui, Mitsubishi UFJ... 일본의 톱 기업들이 이미 실운영(Production) 단계에 진입해 있다.

NTT Data는 2025년 1월에 자본 업무 제휴를 맺었으며, 일본 기업 최초로 「Elite」 파트너 인증을 획득했다. Accenture나 Itochu Techno-Solutions도 대형 프로젝트를 통해 움직이고 있다.

인재 시장의 이상 현상도 데이터로 나타나고 있다. OpenMoney에 따르면 Databricks Japan의 평균 연봉은 2,421만 엔이다. 이는 단순히 외자계 기업의 연봉 수준이 아니라, 시장 전체의 수요 초과를 반영하고 있다.

앞으로의 데이터 엔지니어에게 찾아올 기회

여기까지 글을 쓰며 드는 생각은, 향후 2~3년 동안은 "Databricks를 다룰 줄 아는 사람"의 포지션이 완전히 판매자 우위 시장(Seller's Market)이 될 것이라는 점이다.

이유는 세 가지다.

첫 번째, Databricks 자체가 향후 5년 동안 일본 국내에서 5만 명을 교육하기 위해 투자하겠다고 공식 선언했다. 시장은 확실히 확장될 것이다.

두 번째, 위에서 언급한 지난 반년 동안의 변화를 보면 알 수 있듯이, Databricks 본체의 기능 확장 속도가 비정상적으로 빨라 전문 지식을 계속 업데이트하지 않으면 따라갈 수 없다. 이는 신규 진입자에게 기회이기도 하다. 기존 인원이 모두 베테랑인 구조가 아니라, 반년만 지나도 모두가 "신입"이 되는 구조로 되어 있다.

세 번째, Lakebase, Genie, Lakeflow가 갖춰지면서 Databricks는 "앱을 만드는 사람", "업무 사용자"까지 스코프(Scope)를 넓혀가고 있다. 이는 기술자의 가치가 더욱 상승하는 방향의 움직임이다.

나의 경우

업무에서 Databricks를 중심으로 데이터 관련 업무를 수행하고 있으며, 그 경험을 더 많은 분께 전달하고 싶은 마음으로 일본어 클라우드 자격증 학습 사이트를 운영하고 있습니다.

Databricks의 총 7개 자격증을 축으로, Snowflake / Azure / GCP 등 50개 이상의 시험, 6,800문제, 823개의 기사를 보유하고 있습니다. 이미 유료로 등록해 주신 분들도 여러 명 계십니다.

요금은 월 980엔입니다. 선착순 100명까지의 가격이며, 그 이후에는 월 1,480엔으로 인상할 예정입니다.

앞으로 쓰고 싶은 내용

Zenn에는 오늘이 첫 게시물이며, 앞으로 후속편으로 몇 가지 써보고자 하는 테마가 있습니다.

  • Lakebase를 실제로 사용해 본 후기 (비용 및 성능 검증)
  • Genie Space를 사내 도구로 만든 이야기
  • Databricks DEA를 최단 기간에 취득한 공부 기록
  • Lakeflow Connect로 Fivetran에서 마이그레이션(Migration)해 본 경험
  • 2026년 신규 시험인 GenAI Engineer Associate 체험기

이러한 내용들을 월 1~2회 속도로 작성해 나갈 예정입니다. 관심 있는 분야가 있다면 알려주시면 우선적으로 다루겠습니다.

참고 링크

  • Databricks 공식 보도자료: 일본 전년 대비 100% 성장
  • What's New in Azure Databricks at FabCon 2026
  • Azure Databricks Lakebase is Generally Available
  • Agentic data engineering with Genie Code and Lakeflow
  • Lakeflow Designer 공식
  • Lakeflow Connect Free Tier 공식
  • NTT Data Databricks 자본 업무 제휴
  • OpenMoney Databricks Japan 연봉
  • NicheeLab — Databricks/Snowflake/Azure/GCP 일본어 문제집
  • NicheeLab — Databricks 시험 공부 시간 가이드
  • NicheeLab — Databricks Lakebase 완전 가이드

토론 (Discussion)

AI 자동 생성 콘텐츠

본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0