SkyPilot 多云编排指南：跨 AWS/GCP/Azure 自动优化机器学习成本与分布式训练

skypilot-multi-cloud-orchestration by davila7/claude-code-templates

213 周安装量

24,100 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/davila7/claude-code-templates --skill skypilot-multi-cloud-orchestration

AI/机器学习云服务开发运维

🇨🇳中文介绍

SkyPilot 多云编排

使用 SkyPilot 在多云环境中运行机器学习工作负载并实现自动成本优化的综合指南。

何时使用 SkyPilot

在以下情况下使用 SkyPilot：

跨多个云平台（AWS、GCP、Azure 等）运行机器学习工作负载
需要通过自动选择云/区域来实现成本优化
在竞价实例上运行长时作业并需要自动恢复
管理分布式多节点训练
希望为 20 多个云服务提供商提供统一接口
需要避免供应商锁定

主要特性：

多云支持：AWS、GCP、Azure、Kubernetes、Lambda、RunPod 等 20 多个提供商
成本优化：自动选择最便宜的云/区域
竞价实例：节省 3-6 倍成本，并支持自动恢复
分布式训练：支持多节点作业和组调度
托管作业：自动恢复、检查点、容错
Sky Serve：支持自动扩缩容的模型服务

替代方案使用场景：

Modal：适用于具有 Python 原生 API 的简单无服务器 GPU 场景
RunPod：适用于单云持久化 Pod
Kubernetes：适用于现有的 K8s 基础设施
Ray：适用于纯基于 Ray 的编排

快速开始

安装

pip install "skypilot[aws,gcp,azure,kubernetes]"

# 验证云凭据
sky check

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

相关 Skills

find-skills 技能搜索工具 - Vercel Labs 开源智能体技能包管理器

879,700 周安装

Vercel React 最佳实践指南 | 58条Next.js性能优化规则与代码重构

286,600 周安装

agent-browser 浏览器自动化工具 - Vercel Labs 命令行网页操作与测试

159,700 周安装

Azure Data Explorer (Kusto) 查询技能：KQL数据分析、日志遥测与时间序列处理

133,300 周安装

创建 hello.yaml：

resources:
  accelerators: T4:1

run: |
  nvidia-smi
  echo "Hello from SkyPilot!"

sky launch -c hello hello.yaml

# SSH 连接到集群
ssh hello

# 终止
sky down hello

# 任务名称（可选）
name: my-task

# 资源需求
resources:
  cloud: aws              # 可选：如果省略则自动选择
  region: us-west-2       # 可选：如果省略则自动选择
  accelerators: A100:4    # GPU 类型和数量
  cpus: 8+                # 最小 CPU 数量
  memory: 32+             # 最小内存（GB）
  use_spot: true          # 使用竞价实例
  disk_size: 256          # 磁盘大小（GB）

# 分布式训练的节点数量
num_nodes: 2

# 工作目录（同步到 ~/sky_workdir）
workdir: .

# 设置命令（运行一次）
setup: |
  pip install -r requirements.txt

# 运行命令
run: |
  python train.py

命令	用途
`sky launch`	启动集群并运行任务
`sky exec`	在现有集群上运行任务
`sky status`	显示集群状态
`sky stop`	停止集群（保留状态）
`sky down`	终止集群
`sky logs`	查看任务日志
`sky queue`	显示作业队列
`sky jobs launch`	启动托管作业
`sky serve up`	部署服务端点

# NVIDIA GPU
accelerators: T4:1
accelerators: L4:1
accelerators: A10G:1
accelerators: L40S:1
accelerators: A100:4
accelerators: A100-80GB:8
accelerators: H100:8

# 云平台特定
accelerators: V100:4         # AWS/GCP
accelerators: TPU-v4-8       # GCP TPU

resources:
  accelerators:
    H100: 8
    A100-80GB: 8
    A100: 8
  any_of:
    - cloud: gcp
    - cloud: aws
    - cloud: azure

resources:
  accelerators: A100:8
  use_spot: true
  spot_recovery: FAILOVER  # 抢占时自动恢复

# 启动新集群
sky launch -c mycluster task.yaml

# 在现有集群上运行（跳过设置）
sky exec mycluster another_task.yaml

# 交互式 SSH
ssh mycluster

# 流式日志
sky logs mycluster

resources:
  accelerators: A100:4
  autostop:
    idle_minutes: 30
    down: true  # 终止而非停止

# 通过 CLI 设置自动停止
sky autostop mycluster -i 30 --down

# 所有集群
sky status

# 详细视图
sky status -a

resources:
  accelerators: A100:8

num_nodes: 4  # 4 节点 × 8 GPU = 总计 32 GPU

setup: |
  pip install torch torchvision

run: |
  torchrun \
    --nnodes=$SKYPILOT_NUM_NODES \
    --nproc_per_node=$SKYPILOT_NUM_GPUS_PER_NODE \
    --node_rank=$SKYPILOT_NODE_RANK \
    --master_addr=$(echo "$SKYPILOT_NODE_IPS" | head -n1) \
    --master_port=12355 \
    train.py

变量	描述
`SKYPILOT_NODE_RANK`	节点索引（0 到 num_nodes-1）
`SKYPILOT_NODE_IPS`	换行分隔的 IP 地址
`SKYPILOT_NUM_NODES`	节点总数
`SKYPILOT_NUM_GPUS_PER_NODE`	每个节点的 GPU 数量

run: |
  if [ "${SKYPILOT_NODE_RANK}" == "0" ]; then
    python orchestrate.py
  fi

# 启动带竞价恢复的托管作业
sky jobs launch -n my-job train.yaml

name: training-job

file_mounts:
  /checkpoints:
    name: my-checkpoints
    store: s3
    mode: MOUNT

resources:
  accelerators: A100:8
  use_spot: true

run: |
  python train.py \
    --checkpoint-dir /checkpoints \
    --resume-from-latest

# 列出作业
sky jobs queue

# 查看日志
sky jobs logs my-job

# 取消作业
sky jobs cancel my-job

文件挂载和存储

workdir: ./my-project  # 同步到 ~/sky_workdir

file_mounts:
  /data/config.yaml: ./config.yaml
  ~/.vimrc: ~/.vimrc

file_mounts:
  # 挂载 S3 存储桶
  /datasets:
    source: s3://my-bucket/datasets
    mode: MOUNT  # 从 S3 流式传输

  # 复制 GCS 存储桶
  /models:
    source: gs://my-bucket/models
    mode: COPY  # 预取到磁盘

  # 缓存挂载（快速写入）
  /outputs:
    name: my-outputs
    store: s3
    mode: MOUNT_CACHED

模式	描述	最佳适用场景
`MOUNT`	从云端流式传输	大型数据集，读取密集型
`COPY`	预取到磁盘	小文件，随机访问
`MOUNT_CACHED`	缓存并异步上传	检查点，输出

Sky Serve（模型服务）

# service.yaml
service:
  readiness_probe: /health
  replica_policy:
    min_replicas: 1
    max_replicas: 10
    target_qps_per_replica: 2.0

resources:
  accelerators: A100:1

run: |
  python -m vllm.entrypoints.openai.api_server \
    --model meta-llama/Llama-2-7b-chat-hf \
    --port 8000

# 部署
sky serve up -n my-service service.yaml

# 检查状态
sky serve status

# 获取端点
sky serve status my-service

自动扩缩容策略

service:
  replica_policy:
    min_replicas: 1
    max_replicas: 10
    target_qps_per_replica: 2.0
    upscale_delay_seconds: 60
    downscale_delay_seconds: 300
  load_balancing_policy: round_robin

# SkyPilot 寻找最便宜的选项
resources:
  accelerators: A100:8
  # 未指定云平台 - 自动选择最便宜的

# 显示优化器决策
sky launch task.yaml --dryrun

resources:
  accelerators: A100:8
  any_of:
    - cloud: gcp
      region: us-central1
    - cloud: aws
      region: us-east-1
    - cloud: azure

envs:
  HF_TOKEN: $HF_TOKEN  # 从本地环境继承
  WANDB_API_KEY: $WANDB_API_KEY

# 或使用密钥
secrets:
  - HF_TOKEN
  - WANDB_API_KEY

工作流 1：带检查点的微调

name: llm-finetune

file_mounts:
  /checkpoints:
    name: finetune-checkpoints
    store: s3
    mode: MOUNT_CACHED

resources:
  accelerators: A100:8
  use_spot: true

setup: |
  pip install transformers accelerate

run: |
  python train.py \
    --checkpoint-dir /checkpoints \
    --resume

工作流 2：超参数扫描

name: hp-sweep-${RUN_ID}

envs:
  RUN_ID: 0
  LEARNING_RATE: 1e-4
  BATCH_SIZE: 32

resources:
  accelerators: A100:1
  use_spot: true

run: |
  python train.py \
    --lr $LEARNING_RATE \
    --batch-size $BATCH_SIZE \
    --run-id $RUN_ID

# 启动多个作业
for i in {1..10}; do
  sky jobs launch sweep.yaml \
    --env RUN_ID=$i \
    --env LEARNING_RATE=$(python -c "import random; print(10**random.uniform(-5,-3))")
done

# SSH 到集群
ssh mycluster

# 查看日志
sky logs mycluster

# 检查作业队列
sky queue mycluster

# 查看托管作业日志
sky jobs logs my-job

问题	解决方案
配额不足	申请配额增加，尝试不同区域
竞价抢占	使用 `sky jobs launch` 实现自动恢复
文件同步慢	对输出使用 `MOUNT_CACHED` 模式
GPU 不可用	使用 `any_of` 指定后备云平台

高级用法 - 多云、优化、生产模式
故障排除 - 常见问题及解决方案

🇺🇸English

SkyPilot Multi-Cloud Orchestration

Comprehensive guide to running ML workloads across clouds with automatic cost optimization using SkyPilot.

When to use SkyPilot

Use SkyPilot when:

Running ML workloads across multiple clouds (AWS, GCP, Azure, etc.)
Need cost optimization with automatic cloud/region selection
Running long jobs on spot instances with auto-recovery
Managing distributed multi-node training
Want unified interface for 20+ cloud providers
Need to avoid vendor lock-in

Key features:

Multi-cloud : AWS, GCP, Azure, Kubernetes, Lambda, RunPod, 20+ providers
Cost optimization : Automatic cheapest cloud/region selection
Spot instances : 3-6x cost savings with automatic recovery
Distributed training : Multi-node jobs with gang scheduling
Managed jobs : Auto-recovery, checkpointing, fault tolerance
Sky Serve : Model serving with autoscaling

Use alternatives instead:

Modal : For simpler serverless GPU with Python-native API
RunPod : For single-cloud persistent pods
Kubernetes : For existing K8s infrastructure
Ray : For pure Ray-based orchestration

Quick start

Installation

pip install "skypilot[aws,gcp,azure,kubernetes]"

# Verify cloud credentials
sky check

Hello World

Create hello.yaml:

resources:
  accelerators: T4:1

run: |
  nvidia-smi
  echo "Hello from SkyPilot!"

Launch:

sky launch -c hello hello.yaml

# SSH to cluster
ssh hello

# Terminate
sky down hello

Core concepts

Task YAML structure

# Task name (optional)
name: my-task

# Resource requirements
resources:
  cloud: aws              # Optional: auto-select if omitted
  region: us-west-2       # Optional: auto-select if omitted
  accelerators: A100:4    # GPU type and count
  cpus: 8+                # Minimum CPUs
  memory: 32+             # Minimum memory (GB)
  use_spot: true          # Use spot instances
  disk_size: 256          # Disk size (GB)

# Number of nodes for distributed training
num_nodes: 2

# Working directory (synced to ~/sky_workdir)
workdir: .

# Setup commands (run once)
setup: |
  pip install -r requirements.txt

# Run commands
run: |
  python train.py

Key commands

Command	Purpose
`sky launch`	Launch cluster and run task
`sky exec`	Run task on existing cluster
`sky status`	Show cluster status
`sky stop`	Stop cluster (preserve state)
`sky down`	Terminate cluster
`sky logs`	View task logs

GPU configuration

Available accelerators

# NVIDIA GPUs
accelerators: T4:1
accelerators: L4:1
accelerators: A10G:1
accelerators: L40S:1
accelerators: A100:4
accelerators: A100-80GB:8
accelerators: H100:8

# Cloud-specific
accelerators: V100:4         # AWS/GCP
accelerators: TPU-v4-8       # GCP TPUs

GPU fallbacks

resources:
  accelerators:
    H100: 8
    A100-80GB: 8
    A100: 8
  any_of:
    - cloud: gcp
    - cloud: aws
    - cloud: azure

Spot instances

resources:
  accelerators: A100:8
  use_spot: true
  spot_recovery: FAILOVER  # Auto-recover on preemption

Cluster management

Launch and execute

# Launch new cluster
sky launch -c mycluster task.yaml

# Run on existing cluster (skip setup)
sky exec mycluster another_task.yaml

# Interactive SSH
ssh mycluster

# Stream logs
sky logs mycluster

Autostop

resources:
  accelerators: A100:4
  autostop:
    idle_minutes: 30
    down: true  # Terminate instead of stop



# Set autostop via CLI
sky autostop mycluster -i 30 --down

Cluster status

# All clusters
sky status

# Detailed view
sky status -a

Distributed training

Multi-node setup

resources:
  accelerators: A100:8

num_nodes: 4  # 4 nodes × 8 GPUs = 32 GPUs total

setup: |
  pip install torch torchvision

run: |
  torchrun \
    --nnodes=$SKYPILOT_NUM_NODES \
    --nproc_per_node=$SKYPILOT_NUM_GPUS_PER_NODE \
    --node_rank=$SKYPILOT_NODE_RANK \
    --master_addr=$(echo "$SKYPILOT_NODE_IPS" | head -n1) \
    --master_port=12355 \
    train.py

Environment variables

Variable	Description
`SKYPILOT_NODE_RANK`	Node index (0 to num_nodes-1)
`SKYPILOT_NODE_IPS`	Newline-separated IP addresses
`SKYPILOT_NUM_NODES`	Total number of nodes
`SKYPILOT_NUM_GPUS_PER_NODE`	GPUs per node

Head-node-only execution

run: |
  if [ "${SKYPILOT_NODE_RANK}" == "0" ]; then
    python orchestrate.py
  fi

Managed jobs

Spot recovery

# Launch managed job with spot recovery
sky jobs launch -n my-job train.yaml

Checkpointing

name: training-job

file_mounts:
  /checkpoints:
    name: my-checkpoints
    store: s3
    mode: MOUNT

resources:
  accelerators: A100:8
  use_spot: true

run: |
  python train.py \
    --checkpoint-dir /checkpoints \
    --resume-from-latest

Job management

# List jobs
sky jobs queue

# View logs
sky jobs logs my-job

# Cancel job
sky jobs cancel my-job

File mounts and storage

Local file sync

workdir: ./my-project  # Synced to ~/sky_workdir

file_mounts:
  /data/config.yaml: ./config.yaml
  ~/.vimrc: ~/.vimrc

Cloud storage

file_mounts:
  # Mount S3 bucket
  /datasets:
    source: s3://my-bucket/datasets
    mode: MOUNT  # Stream from S3

  # Copy GCS bucket
  /models:
    source: gs://my-bucket/models
    mode: COPY  # Pre-fetch to disk

  # Cached mount (fast writes)
  /outputs:
    name: my-outputs
    store: s3
    mode: MOUNT_CACHED

Storage modes

Mode	Description	Best For
`MOUNT`	Stream from cloud	Large datasets, read-heavy
`COPY`	Pre-fetch to disk	Small files, random access
`MOUNT_CACHED`	Cache with async upload	Checkpoints, outputs

Sky Serve (Model Serving)

Basic service

# service.yaml
service:
  readiness_probe: /health
  replica_policy:
    min_replicas: 1
    max_replicas: 10
    target_qps_per_replica: 2.0

resources:
  accelerators: A100:1

run: |
  python -m vllm.entrypoints.openai.api_server \
    --model meta-llama/Llama-2-7b-chat-hf \
    --port 8000



# Deploy
sky serve up -n my-service service.yaml

# Check status
sky serve status

# Get endpoint
sky serve status my-service

Autoscaling policies

service:
  replica_policy:
    min_replicas: 1
    max_replicas: 10
    target_qps_per_replica: 2.0
    upscale_delay_seconds: 60
    downscale_delay_seconds: 300
  load_balancing_policy: round_robin

Cost optimization

Automatic cloud selection

# SkyPilot finds cheapest option
resources:
  accelerators: A100:8
  # No cloud specified - auto-select cheapest



# Show optimizer decision
sky launch task.yaml --dryrun

Cloud preferences

resources:
  accelerators: A100:8
  any_of:
    - cloud: gcp
      region: us-central1
    - cloud: aws
      region: us-east-1
    - cloud: azure

Environment variables

envs:
  HF_TOKEN: $HF_TOKEN  # Inherited from local env
  WANDB_API_KEY: $WANDB_API_KEY

# Or use secrets
secrets:
  - HF_TOKEN
  - WANDB_API_KEY

Common workflows

Workflow 1: Fine-tuning with checkpoints

name: llm-finetune

file_mounts:
  /checkpoints:
    name: finetune-checkpoints
    store: s3
    mode: MOUNT_CACHED

resources:
  accelerators: A100:8
  use_spot: true

setup: |
  pip install transformers accelerate

run: |
  python train.py \
    --checkpoint-dir /checkpoints \
    --resume

Workflow 2: Hyperparameter sweep

name: hp-sweep-${RUN_ID}

envs:
  RUN_ID: 0
  LEARNING_RATE: 1e-4
  BATCH_SIZE: 32

resources:
  accelerators: A100:1
  use_spot: true

run: |
  python train.py \
    --lr $LEARNING_RATE \
    --batch-size $BATCH_SIZE \
    --run-id $RUN_ID



# Launch multiple jobs
for i in {1..10}; do
  sky jobs launch sweep.yaml \
    --env RUN_ID=$i \
    --env LEARNING_RATE=$(python -c "import random; print(10**random.uniform(-5,-3))")
done

Debugging

# SSH to cluster
ssh mycluster

# View logs
sky logs mycluster

# Check job queue
sky queue mycluster

# View managed job logs
sky jobs logs my-job

Common issues

Issue	Solution
Quota exceeded	Request quota increase, try different region
Spot preemption	Use `sky jobs launch` for auto-recovery
Slow file sync	Use `MOUNT_CACHED` mode for outputs
GPU not available	Use `any_of` for fallback clouds

References

Advanced Usage - Multi-cloud, optimization, production patterns
Troubleshooting - Common issues and solutions

Resources

Documentation : https://docs.skypilot.co
GitHub : https://github.com/skypilot-org/skypilot
Slack : https://slack.skypilot.co
Examples : https://github.com/skypilot-org/skypilot/tree/master/examples

Weekly Installs

169

Repository

davila7/claude-…emplates

GitHub Stars

23.4K

First Seen

Jan 21, 2026

Security Audits

Gen Agent Trust HubPass SocketPass SnykWarn

Installed on

claude-code142

opencode140

gemini-cli131

cursor129

codex119

antigravity114

SkyPilot 多云编排指南：跨 AWS/GCP/Azure 自动优化机器学习成本与分布式训练

🇨🇳中文介绍

SkyPilot 多云编排

何时使用 SkyPilot

快速开始

安装

相关 Skills

Hello World

核心概念

任务 YAML 结构

关键命令

GPU 配置

可用的加速器

GPU 后备方案

竞价实例

集群管理

启动和执行

自动停止

集群状态

分布式训练

多节点设置

环境变量

仅头节点执行

托管作业

竞价恢复

检查点

作业管理

文件挂载和存储

本地文件同步

云存储

存储模式

Sky Serve（模型服务）

基础服务

自动扩缩容策略

成本优化

自动云选择

云平台偏好

环境变量

常见工作流

工作流 1：带检查点的微调

工作流 2：超参数扫描

调试

常见问题

参考

资源

🇺🇸English

SkyPilot Multi-Cloud Orchestration

When to use SkyPilot

Quick start

Installation

Hello World

Core concepts

Task YAML structure

Key commands

GPU configuration

Available accelerators

GPU fallbacks

Spot instances

Cluster management

Launch and execute

Autostop

Cluster status

Distributed training

Multi-node setup

Environment variables

Head-node-only execution

Managed jobs

Spot recovery

Checkpointing

Job management

File mounts and storage

Local file sync

Cloud storage

Storage modes

Sky Serve (Model Serving)

Basic service

Autoscaling policies

Cost optimization

Automatic cloud selection

Cloud preferences