본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 07. 22:13

Hearth: Kubernetes 기반의 Scale-to-zero LLM 서빙 — GPU 없이도 개발에 참여할 수 있습니다

요약

Hearth는 Kubernetes 기반의 오픈 소스 LLM 서빙 오퍼레이터로, 유휴 상태 시 GPU 자원을 0으로 스케일링하는 기능을 제공합니다. vLLM과 KEDA 등을 활용하며, GPU 없이도 CPU 환경에서 전체 서빙 루프를 테스트할 수 있는 개발 경로를 지원합니다.

핵심 포인트

  • Kubernetes 기반의 Scale-to-zero LLM 서빙 지원
  • GPU 없이 CPU 환경에서 전체 동작 검증 가능
  • vLLM, KEDA, KServe 등 기존 생태계와 통합
  • NPU(Ascend 등) 백엔드 검증 기여자 모집 중

Repo: github.com/hearth-project/hearth · Apache-2.0 · v0.1.0, alpha.

저는 오픈 소스 LLM(Qwen, DeepSeek, GLM, …)을 선언적으로 서빙하고 **유휴 상태일 때 zero로 스케일링(scale to zero)**하는 Kubernetes 오퍼레이터(operator)인 Hearth를 구축해 왔습니다. 현재 핵심 기능이 실제 GPU에서 엔드 투 엔드(end-to-end)로 작동하는 단계에 있으며, 저와 함께 이를 만들어갈 분들을 찾고 있습니다. 가장 먼저 말씀드리고 싶은 점은

Hearth는 의도적으로 자신의 영역을 지킵니다. 즉, K8s 오케스트레이션/라이프사이클(orchestration/lifecycle) 레이어 역할을 수행합니다. 엔진은 vLLM을 사용하며, 스케줄링(scheduling)은 device-plugins / HAMi / Volcano를 사용하고, 데이터센터 규모의 서빙(serving)은 KServe / llm-d가 담당합니다. Hearth는 이 스펙트럼 중에서 소수의 GPU를 사용하며, 스케일 투 제로(scale-to-zero)를 지원하는 프라이빗(private) 영역에 위치합니다.

GPU 없이도 기여할 수 있는 이유

이 부분이 제가 자랑스럽게 생각하는 지점이자 이 글을 올리는 이유입니다. 모든 변경 사항에 하드웨어 랙이 필요하다면, 벤더 중립적인(vendor-neutral) 프로젝트는 기여자들에게 아무런 쓸모가 없습니다. 따라서 완전한 'GPU 없는(no-GPU)' 테스트 경로를 제공합니다. 시작 지연(startup delay), 스트리밍(streaming), /metrics를 흉내 내는 CPU vllm-stub과 노드 상의 가짜 확장 리소스(fake extended resource)가 준비되어 있습니다. 가속기가 없는 일반적인 kind 클러스터에서 단 한 줄의 명령어 —

make test-scale-e2e

— 만으로 콜드 스타트(cold-start) 유지(keepalive) 및 우아한 드레인(graceful drain)을 포함한 0 → 1 → N → 0 전체 루프를 실행할 수 있습니다. 노트북 한 대만 있으면 핵심 동작을 개발하고 검증하기에 충분합니다.

솔직한 상태

과장해서 말씀드리지 않겠습니다. v0.1.0 기준으로:

  • 실제 NVIDIA GPU에서 엔드 투 엔드(end-to-end)로 검증 완료됨: 멀티 백엔드 추상화(multi-backend abstraction), 모델 캐싱/프리웜(model caching/prewarm), 게이트웨이(gateway) + KEDA 스케일 투 제로(scale-to-zero), 콜드 스타트 유지(cold-start keepalive), 우아한 드레인(graceful drain), 1→N 오토스케일링(autoscaling), Helm 설치, Grafana 대시보드.
  • 실제 하드웨어에서 테스트는 완료되었으나 골격(scaffolded) 및 골든 테스트(golden-tested) 단계임: Ascend 백엔드는 올바른 매니페스트(manifest)를 생성하지만, 실제 NPU에서 검증되지는 않았습니다. 이는 순수하게 하드웨어 접근 권한 문제로 막혀 있는 v1 버전의 가장 큰 공백입니다.
  • 아직 미도달 영역: 인증(auth), 멀티 테넌시(multi-tenancy). 현재 v1alpha1 단계이며 프로덕션 환경에 즉시 적용할 수준은 아닙니다. 현재로서는 내부/개발용, 지연 시간(latency)에 관대하며 비용에 민감한 서빙 환경에 매우 적합합니다.

도움이 필요한 부분

  • Ascend (또는 Cambricon) 하드웨어를 보유하고 계신가요? 실제 NPU에서 Ascend 백엔드를 검증하는 것이 현재 가장 가치 있는 일입니다.
  • 특별한 하드웨어가 없으신가요? 좋은 첫 이슈(good-first-issue) (https://github.com/hearth-project/hearth/issues)를 확인해 보세요. 위에서 언급한 GPU 없는 경로 덕분에 로컬에서 빌드, 테스트 및 검증이 가능합니다.
  • 단순히 궁금하신가요? kind 퀵스타트(quickstart)를 시도해 보고, 허점을 찾아내거나, 이슈(issue)를 제기하거나, ⭐를 누르고 팔로우해 주세요.

이 내용 중 공감 가는 부분이 있다면, Welcome issue (#1)(https://github.com/hearth-project/hearth/issues/1)를 통해 인사를 건네주세요. 읽어주셔서 감사합니다.

당신의 모델, 당신의 hearth. 🔥

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0