
skypilot-org/skypilot
요약
SkyPilot은 다양한 AI 인프라에서 워크로드를 실행, 관리 및 확장할 수 있는 통합 제어 평면 시스템입니다. AI 팀에게는 간편한 인터페이스를, 인프라 팀에게는 고급 스케줄링 및 오케스트레이션 기능을 제공합니다.
핵심 포인트
- 멀티 클라우드 및 Kubernetes 환경에서 AI 워크로드 최적화
- GPU 가격 비교 및 탐색이 가능한 GPU Compass 기능 제공
- 코드로서의 환경 및 작업(Environment/Job as code) 지원
- Slurm과 유사한 사용 편의성과 클라우드 네이티브의 견고함 결합

SkyPilot은 모든 AI 인프라에서 AI 워크로드 (workloads)를 실행, 관리 및 확장할 수 있는 시스템입니다.
SkyPilot은 AI 팀에게 어떤 인프라에서든 작업을 실행할 수 있는 간단한 인터페이스를 제공합니다.
인프라 팀은 고급 스케줄링 (scheduling), 확장 (scaling) 및 오케스트레이션 (orchestration) 기능을 갖추고 모든 AI 컴퓨팅을 관리할 수 있는 통합 제어 평면 (control plane)을 얻게 됩니다.

🔥 뉴스 🔥
- [2026년 4월] GPU Compass 도입: 모든 GPU 클라우드에서 가격을 탐색, 비교 및 실행할 수 있는 하나의 대시보드. gpus.skypilot.co에서 체험해 보세요. - [2026년 4월]
연구 중심 에이전트 (Research-Driven Agents): 코딩 전에 arXiv 논문을 읽는 에이전트가 약 3시간 동안 약 29달러의 비용으로 5개의 llama.cpp 커널 퓨전 (kernel fusions)을 달성하고 Flash Attention 속도를 15% 이상 향상시켰습니다: blog, HackerNews - [2026년 3월]
Karpathy의 Autoresearch 확장: Autoresearch는 한 번에 하나의 실험만 실행합니다. 우리는 16개의 GPU를 제공하여 병렬로 실행되도록 했습니다: blog, HackerNews - [2026년 3월]
H사가 온라인 강화학습 (Online RL)을 구현하고 AI 플랫폼을 통합한 방법: case study - [2026년 3월]
SkyPilot v0.12 출시: Slurm 지원, RL을 위한 작업 그룹 (Job Groups), 에이전트 기술 (Agent Skill), 레시피 (Recipes), 배치 추론 (Batch Inference)을 위한 풀 오토스케일링 (Pool Autoscaling), 7배 빠른 데이터 마운팅 (Data Mounting) 및 기타 기능 포함: Release notes - [2026년 3월]
SkyPilot 에이전트 기술 (SkyPilot Agent Skills): AI 에이전트를 위한 GPU 액세스 및 작업 관리: docs - [2026년 1월]
Shopify 사례 연구: Shopify는 모든 AI 학습 워크로드를 SkyPilot에서 실행합니다: case study - [2025년 12월]
SkyPilot v0.11 출시: 멀티 클라우드 풀 (Multi-Cloud Pools), 빠른 관리형 작업 (Fast Managed Jobs), 대규모 엔터프라이즈 준비성, 프로그래밍 가능성: Release notes - [2025년 12월]
Kubernetes 또는 클라우드에서 강화학습 (RL)을 사용하여 Google Search를 도구로 사용하는 에이전트 학습: blog, example
SkyPilot은 AI 사용자에게 사용하기 쉽습니다:
- 자체 인프라에서 컴퓨팅을 빠르게 가동
- 코드로서의 환경 및 작업 (Environment and job as code) — 단순하고 이식성이 높음
- 쉬운 작업 관리: 많은 작업의 대기열 (queue), 실행 및 자동 복구
SkyPilot은 AI 및 인프라 팀이 Kubernetes를 쉽게 사용할 수 있도록 만듭니다:
- Slurm과 유사한 사용 편의성 및 클라우드 네이티브 (cloud-native) 견고함
- K8s 상에서의 로컬 개발 경험: Pod로의 SSH 접속, 코드 동기화 또는 IDE 연결
- 클러스터 성능 극대화: 갱 스케줄링 (gang scheduling), 멀티 클러스터 (multi-cluster) 및 스케일링 (scaling)
SkyPilot은 여러 클러스터, 클라우드 및 하드웨어를 통합합니다:
- 예약된 GPU, Kubernetes 클러스터, Slurm 클러스터 또는 20개 이상의 클라우드를 사용하는 단일 인터페이스
- 스마트 페일오버 (failover)를 포함한 GPU, TPU, CPU의 유연한 프로비저닝 (provisioning)
- 팀 배포 및 리소스 공유
SkyPilot은 GPU 플릿 (fleet) 활용도를 극대화합니다:
- Autostop: 유휴 리소스의 자동 정리
- Binpacking: 공유 클러스터에서의 워크로드 빈패킹 (binpacking)
- 지능형 스케줄러 (intelligent scheduler): 가장 가용성이 높은 인프라에 자동으로 스케줄링
SkyPilot은 코드 변경 없이 기존의 GPU, TPU 및 CPU 워크로드를 지원합니다.
uv를 사용하여 설치하세요 (pip, nightly, 소스 설치도 지원됨)
# 사용할 클라우드를 선택하세요:
uv pip install "skypilot[kubernetes,aws,gcp,azure,oci,nebius,lambda,runpod,fluidstack,paperspace,cudo,ibm,scp,seeweb,shadeform,verda]"
에이전트 (Claude Code, Codex 등)에서 SkyPilot을 직접 사용하려면 SkyPilot Skill을 설치하세요. 에이전트에게 다음과 같이 지시하세요:
Fetch and follow https://github.com/skypilot-org/skypilot/blob/HEAD/agent/INSTALL.md to install the skypilot skill
현재 지원되는 인프라: Kubernetes, Slurm, AWS, GCP, Azure, OCI, CoreWeave, Nebius, Lambda Cloud, RunPod, Fluidstack, Cudo, Digital Ocean, Paperspace, Cloudflare, Samsung, IBM, Vast.ai, VMware vSphere, Seeweb, Prime Intellect, Shadeform, Verda Cloud, VastData, Crusoe.

1분 만에 SkyPilot을 설치하세요. 그런 다음 Quickstart를 통해 2분 만에 첫 번째 클러스터를 실행할 수 있습니다.
SkyPilot은 BYOC (Bring Your Own Cloud) 방식입니다: 모든 것은 사용자의 클라우드 계정, VPC 및 클러스터 내에서 실행됩니다.
SkyPilot은 Kubernetes를 AI 네이티브 (AI-native)로 만듭니다.
SkyPilot은 AI/ML 속도를 가속화하여 기존 Kubernetes 클러스터의 성능을 극대화합니다:
- 작업 및 배포를 실행하기 위한 AI 친화적인 인터페이스
- K8s를 위한 훨씬 단순화된 대화형 개발 (Pod로의 SSH / 코드 동기화 / IDE 연결)
...그리고 GPU 스케줄링 (scheduling), 활용도 (utilization) 및 확장 (scaling) 최적화:
- 고급 스케줄링 (Advanced scheduling): 갱 스케줄링 (Gang scheduling), 멀티 노드 작업 (multi-node jobs) 및 큐잉 (queueing)
- 멀티 클러스터 지원 (Multi-cluster support): 모든 클러스터를 하나의 제어 평면 (control plane) 아래로 통합
- 멀티 클라우드 지원 (Multi-cloud support): 여러 제공업체를 관리하기 위한 하나의 일관된 인터페이스
자세한 내용은 SkyPilot vs Vanilla Kubernetes 및 이 블로그 포스트를 참조하세요.
SkyPilot 작업 (task)은 리소스 요구 사항, 동기화할 데이터, 설정 명령 (setup commands) 및 작업 명령 (task commands)을 지정합니다.
이 통합 인터페이스 (unified interface) (YAML 또는 Python API)로 작성되면, 작업은 사용 가능한 모든 인프라 (Kubernetes, Slurm, 클라우드 등)에서 실행될 수 있습니다. 이를 통해 벤더 종속성 (vendor lock-in)을 방지하고, 작업을 다른 제공업체로 쉽게 이동할 수 있습니다.
다음 내용을 my_task.yaml 파일에 붙여넣으세요:
resources:
accelerators: A100:8 # 8x NVIDIA A100 GPU
num_nodes: 1 # 실행할 VM의 수
...
다음 명령으로 작업 디렉토리 (workdir)를 클론하여 준비합니다:
git clone https://github.com/pytorch/examples.git ~/torch_examples
sky launch로 실행합니다
(참고: 이 예제를 실행하려면 GPU 인스턴스에 대한 액세스 권한이 필요합니다):
sky launch my_task.yaml
그러면 SkyPilot이 다음과 같은 복잡한 작업들을 대신 수행합니다:
- 클러스터 또는 클라우드 전반에서 가장 저렴하고 사용 가능한 인프라 탐색
- GPU (Pod 또는 VM) 프로비저닝 (provisioning), 인프라가 용량 오류를 반환할 경우 자동 장애 조치 (auto-failover) 수행
- 로컬
workdir을 프로비저닝된 클러스터로 동기화 - 작업의
setup명령을 실행하여 종속성 자동 설치 - 작업의
run명령을 실행하고 로그 스트리밍
SkyPilot을 시작하려면 Quickstart를 참조하세요.
개발, 학습 (training), 서빙 (serving), LLM 모델, AI 앱 및 일반적인 프레임워크를 다루는 **SkyPilot 예제 (examples)**를 참조하세요.
최신 주요 예제:
| 작업 (Task) | 예제 (Examples) |
|---|---|
| Training | Verl, Finetune Llama 4, TorchTitan, PyTorch, DeepSpeed, NeMo, Ray, Unsloth, Jax/TPU, OpenRLHF |
| ... |
소스 파일은 llm/ 및 examples/에서 찾을 수 있습니다.
더 자세히 알아보려면 SkyPilot Overview, SkyPilot docs 및 SkyPilot blog를 참조하세요.
SkyPilot 도입 사례: 추천사 및 사례 연구 (Testimonials and Case Studies)
파트너 및 통합: 커뮤니티 스포트라이트 (Community Spotlights)
업데이트 팔로우하기:
여러분의 피드백을 듣게 되어 기쁩니다:
- 이슈(Issues) 및 기능 요청(Feature requests)은 GitHub issue를 생성해 주세요.
- 질문 사항은 GitHub Discussions를 이용해 주세요.
일반적인 논의를 원하신다면, SkyPilot Slack에 참여해 주세요.
프로젝트에 대한 모든 기여를 환영합니다! 참여 방법은 CONTRIBUTING을 참조하세요.
AI 자동 생성 콘텐츠
본 콘텐츠는 GitHub Trending Python (daily)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기