Hearth: Kubernetes 기반의 Scale-to-zero LLM 서빙 — GPU 없이도 개발에 참여할 수 있습니다

요약

Hearth는 Kubernetes 기반의 오픈 소스 LLM 서빙 오퍼레이터로, 유휴 상태 시 GPU 자원을 0으로 스케일링하는 기능을 제공합니다. vLLM과 KEDA 등을 활용하며, GPU 없이도 CPU 환경에서 전체 서빙 루프를 테스트할 수 있는 개발 경로를 지원합니다.

핵심 포인트

Kubernetes 기반의 Scale-to-zero LLM 서빙 지원
GPU 없이 CPU 환경에서 전체 동작 검증 가능
vLLM, KEDA, KServe 등 기존 생태계와 통합
NPU(Ascend 등) 백엔드 검증 기여자 모집 중

Repo: github.com/hearth-project/hearth · Apache-2.0 · v0.1.0, alpha.

저는 오픈 소스 LLM(Qwen, DeepSeek, GLM, …)을 선언적으로 서빙하고 **유휴 상태일 때 zero로 스케일링(scale to zero)**하는 Kubernetes 오퍼레이터(operator)인 Hearth를 구축해 왔습니다. 현재 핵심 기능이 실제 GPU에서 엔드 투 엔드(end-to-end)로 작동하는 단계에 있으며, 저와 함께 이를 만들어갈 분들을 찾고 있습니다. 가장 먼저 말씀드리고 싶은 점은

Hearth는 의도적으로 자신의 영역을 지킵니다. 즉, K8s 오케스트레이션/라이프사이클(orchestration/lifecycle) 레이어 역할을 수행합니다. 엔진은 vLLM을 사용하며, 스케줄링(scheduling)은 device-plugins / HAMi / Volcano를 사용하고, 데이터센터 규모의 서빙(serving)은 KServe / llm-d가 담당합니다. Hearth는 이 스펙트럼 중에서 소수의 GPU를 사용하며, 스케일 투 제로(scale-to-zero)를 지원하는 프라이빗(private) 영역에 위치합니다.

GPU 없이도 기여할 수 있는 이유

이 부분이 제가 자랑스럽게 생각하는 지점이자 이 글을 올리는 이유입니다. 모든 변경 사항에 하드웨어 랙이 필요하다면, 벤더 중립적인(vendor-neutral) 프로젝트는 기여자들에게 아무런 쓸모가 없습니다. 따라서 완전한 'GPU 없는(no-GPU)' 테스트 경로를 제공합니다. 시작 지연(startup delay), 스트리밍(streaming), /metrics를 흉내 내는 CPU vllm-stub과 노드 상의 가짜 확장 리소스(fake extended resource)가 준비되어 있습니다. 가속기가 없는 일반적인 kind 클러스터에서 단 한 줄의 명령어 —

make test-scale-e2e

— 만으로 콜드 스타트(cold-start) 유지(keepalive) 및 우아한 드레인(graceful drain)을 포함한 0 → 1 → N → 0 전체 루프를 실행할 수 있습니다. 노트북 한 대만 있으면 핵심 동작을 개발하고 검증하기에 충분합니다.

솔직한 상태

과장해서 말씀드리지 않겠습니다. v0.1.0 기준으로:

실제 NVIDIA GPU에서 엔드 투 엔드(end-to-end)로 검증 완료됨: 멀티 백엔드 추상화(multi-backend abstraction), 모델 캐싱/프리웜(model caching/prewarm), 게이트웨이(gateway) + KEDA 스케일 투 제로(scale-to-zero), 콜드 스타트 유지(cold-start keepalive), 우아한 드레인(graceful drain), 1→N 오토스케일링(autoscaling), Helm 설치, Grafana 대시보드.
실제 하드웨어에서 테스트는 완료되었으나 골격(scaffolded) 및 골든 테스트(golden-tested) 단계임: Ascend 백엔드는 올바른 매니페스트(manifest)를 생성하지만, 실제 NPU에서 검증되지는 않았습니다. 이는 순수하게 하드웨어 접근 권한 문제로 막혀 있는 v1 버전의 가장 큰 공백입니다.
아직 미도달 영역: 인증(auth), 멀티 테넌시(multi-tenancy). 현재 v1alpha1 단계이며 프로덕션 환경에 즉시 적용할 수준은 아닙니다. 현재로서는 내부/개발용, 지연 시간(latency)에 관대하며 비용에 민감한 서빙 환경에 매우 적합합니다.

도움이 필요한 부분

Ascend (또는 Cambricon) 하드웨어를 보유하고 계신가요? 실제 NPU에서 Ascend 백엔드를 검증하는 것이 현재 가장 가치 있는 일입니다.
특별한 하드웨어가 없으신가요? 좋은 첫 이슈(good-first-issue) (https://github.com/hearth-project/hearth/issues)를 확인해 보세요. 위에서 언급한 GPU 없는 경로 덕분에 로컬에서 빌드, 테스트 및 검증이 가능합니다.
단순히 궁금하신가요? kind 퀵스타트(quickstart)를 시도해 보고, 허점을 찾아내거나, 이슈(issue)를 제기하거나, ⭐를 누르고 팔로우해 주세요.

이 내용 중 공감 가는 부분이 있다면, Welcome issue (#1)(https://github.com/hearth-project/hearth/issues/1)를 통해 인사를 건네주세요. 읽어주셔서 감사합니다.

당신의 모델, 당신의 hearth. 🔥

AI 자동 생성 콘텐츠

원문 바로가기

Hearth: Kubernetes 기반의 Scale-to-zero LLM 서빙 — GPU 없이도 개발에 참여할 수 있습니다

요약

핵심 포인트

댓글