PufferLib：高性能强化学习库，支持PPO训练与多智能体环境，实现每秒数百万步

pufferlib by davila7/claude-code-templates

140 周安装量

23,500 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/davila7/claude-code-templates --skill pufferlib

AI/机器学习自动化高性能计算

🇨🇳中文介绍

PufferLib - 高性能强化学习

概述

PufferLib 是一个高性能强化学习库，专为快速并行环境模拟和训练而设计。它通过优化的向量化、原生多智能体支持和高效的 PPO 实现（PuffeRL），实现了每秒数百万步的训练速度。该库提供了包含 20 多个环境的 Ocean 套件，并与 Gymnasium、PettingZoo 和专门的 RL 框架无缝集成。

何时使用此技能

在以下情况下使用此技能：

使用 PPO 训练 RL 智能体，适用于任何环境（单智能体或多智能体）
使用 PufferEnv API 创建自定义环境
为并行环境模拟（向量化）优化性能
集成现有环境，来自 Gymnasium、PettingZoo、Atari、Procgen 等
使用 CNN、LSTM 或自定义架构开发策略
将 RL 扩展到每秒数百万步，以加快实验速度
具有原生多智能体环境支持的多智能体 RL

核心功能

1. 高性能训练（PuffeRL）

PuffeRL 是 PufferLib 优化的 PPO+LSTM 训练算法，可实现每秒 1M-4M 步。

快速开始训练：

# CLI 训练
puffer train procgen-coinrun --train.device cuda --train.learning-rate 3e-4

# 分布式训练
torchrun --nproc_per_node=4 train.py

Python 训练循环：

import pufferlib
from pufferlib import PuffeRL

# 创建向量化环境
env = pufferlib.make('procgen-coinrun', num_envs=256)

# 创建训练器
trainer = PuffeRL(
    env=env,
    policy=my_policy,
    device='cuda',
    learning_rate=3e-4,
    batch_size=32768
)

# 训练循环
for iteration in range(num_iterations):
    trainer.evaluate()  # 收集轨迹
    trainer.train()     # 批量训练
    trainer.mean_and_log()  # 记录结果

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

2. 环境开发（PufferEnv）

使用 PufferEnv API 创建自定义高性能环境。

基本环境结构：

import numpy as np
from pufferlib import PufferEnv

class MyEnvironment(PufferEnv):
    def __init__(self, buf=None):
        super().__init__(buf)

        # 定义空间
        self.observation_space = self.make_space((4,))
        self.action_space = self.make_discrete(4)

        self.reset()

    def reset(self):
        # 重置状态并返回初始观察
        return np.zeros(4, dtype=np.float32)

    def step(self, action):
        # 执行动作，计算奖励，检查是否结束
        obs = self._get_observation()
        reward = self._compute_reward()
        done = self._is_done()
        info = {}

        return obs, reward, done, info

使用模板脚本： scripts/env_template.py 提供了完整的单智能体和多智能体环境模板，包含以下示例：

不同的观察空间类型（向量、图像、字典）
动作空间变体（离散、连续、多离散）
多智能体环境结构
测试工具

有关完整的环境开发，请阅读 references/environments.md：

PufferEnv API 详细信息和原地操作模式
观察和动作空间定义
多智能体环境创建
Ocean 套件（20 多个预构建环境）
性能优化（Python 到 C 工作流程）
环境包装器和最佳实践
调试和验证技术

3. 向量化与性能

通过优化的并行模拟实现最大吞吐量。

向量化设置：

import pufferlib

# 自动向量化
env = pufferlib.make('environment_name', num_envs=256, num_workers=8)

# 性能基准：
# - 纯 Python 环境：100k-500k SPS
# - C 语言环境：100M+ SPS
# - 包含训练：400k-4M 总 SPS

用于零拷贝观察传递的共享内存缓冲区
使用忙等待标志代替管道/队列
用于异步返回的备用环境
每个工作进程多个环境

有关向量化优化，请阅读 references/vectorization.md：

架构和性能特征
工作进程和批量大小配置
串行 vs 多进程 vs 异步模式
共享内存和零拷贝模式
大规模分层向量化
多智能体向量化策略
性能分析和故障排除

将策略构建为标准 PyTorch 模块，并带有可选工具。

基本策略结构：

import torch.nn as nn
from pufferlib.pytorch import layer_init

class Policy(nn.Module):
    def __init__(self, observation_space, action_space):
        super().__init__()

        # 编码器
        self.encoder = nn.Sequential(
            layer_init(nn.Linear(obs_dim, 256)),
            nn.ReLU(),
            layer_init(nn.Linear(256, 256)),
            nn.ReLU()
        )

        # Actor 和 critic 头部
        self.actor = layer_init(nn.Linear(256, num_actions), std=0.01)
        self.critic = layer_init(nn.Linear(256, 1), std=1.0)

    def forward(self, observations):
        features = self.encoder(observations)
        return self.actor(features), self.critic(features)

有关完整的策略开发，请阅读 references/policies.md：

用于图像观察的 CNN 策略
具有优化 LSTM 的循环策略（推理速度快 3 倍）
用于复杂观察的多输入策略
连续动作策略
多智能体策略（共享 vs 独立参数）
高级架构（注意力、残差）
观察归一化和梯度裁剪
策略调试和测试

无缝集成来自流行 RL 框架的环境。

Gymnasium 集成：

import gymnasium as gym
import pufferlib

# 包装 Gymnasium 环境
gym_env = gym.make('CartPole-v1')
env = pufferlib.emulate(gym_env, num_envs=256)

# 或直接使用 make
env = pufferlib.make('gym-CartPole-v1', num_envs=256)

PettingZoo 多智能体：

# 多智能体环境
env = pufferlib.make('pettingzoo-knights-archers-zombies', num_envs=128)

支持的框架：

Gymnasium / OpenAI Gym
PettingZoo（并行和 AEC）
Atari (ALE)
Procgen
NetHack / MiniHack
Minigrid
Neural MMO
Crafter
GPUDrive
MicroRTS
Griddly
以及更多...

有关集成详细信息，请阅读 references/integration.md：

每个框架的完整集成示例
自定义包装器（观察、奖励、帧堆叠、动作重复）
空间展平和反展平
环境注册
兼容性模式
性能考虑因素
集成调试

快速入门工作流程

用于训练现有环境

从 Ocean 套件或兼容框架中选择环境
使用 scripts/train_template.py 作为起点
为您的任务配置超参数
使用 CLI 或 Python 脚本运行训练
使用 Weights & Biases 或 Neptune 进行监控
参考 references/training.md 进行优化

用于创建自定义环境

从 scripts/env_template.py 开始
定义观察和动作空间
实现 reset() 和 step() 方法
在本地测试环境
使用 pufferlib.emulate() 或 make() 进行向量化
参考 references/environments.md 获取高级模式
如果需要，使用 references/vectorization.md 进行优化

根据观察选择架构：
- 向量观察 → MLP 策略
- 图像观察 → CNN 策略
- 顺序任务 → LSTM 策略
- 复杂观察 → 多输入策略
使用 layer_init 进行适当的权重初始化
遵循 references/policies.md 中的模式
在完整训练前使用环境进行测试

分析当前吞吐量（每秒步数）
检查向量化配置（num_envs, num_workers）
优化环境代码（原地操作、numpy 向量化）
考虑对关键路径使用 C 语言实现
使用 references/vectorization.md 进行系统优化

train_template.py - 完整的训练脚本模板，包含：

环境创建和配置
策略初始化
日志记录器集成（WandB, Neptune）
带检查点的训练循环
命令行参数解析
多 GPU 分布式训练设置

env_template.py - 环境实现模板：

单智能体 PufferEnv 示例（网格世界）
多智能体 PufferEnv 示例（协作导航）
多种观察/动作空间模式
测试工具

training.md - 全面的训练指南：

训练工作流程和 CLI 选项
超参数配置
分布式训练（多 GPU、多节点）
监控和日志记录
检查点
Protein 超参数调优
性能优化
常见训练模式
故障排除

environments.md - 环境开发指南：

PufferEnv API 和特性
观察和动作空间
多智能体环境
Ocean 套件环境
自定义环境开发工作流程
Python 到 C 优化路径
第三方环境集成
包装器和最佳实践
调试

vectorization.md - 向量化优化：

架构和关键优化
向量化模式（串行、多进程、异步）
工作进程和批量配置
共享内存和零拷贝模式
高级向量化（分层、自定义）
多智能体向量化
性能监控和分析
故障排除和最佳实践

policies.md - 策略架构指南：

基本策略结构
用于图像的 CNN 策略
带优化的 LSTM 策略
多输入策略
连续动作策略
多智能体策略
高级架构（注意力、残差）
观察处理和反展平
初始化和归一化
调试和测试

integration.md - 框架集成指南：

Gymnasium 集成
PettingZoo 集成（并行和 AEC）
第三方环境（Procgen、NetHack、Minigrid 等）
自定义包装器（观察、奖励、帧堆叠等）
空间转换和反展平
环境注册
兼容性模式
性能考虑因素
集成调试

从简单开始：在创建自定义环境之前，先从 Ocean 环境或 Gymnasium 集成开始
尽早分析：从一开始就测量每秒步数，以识别瓶颈
使用模板：scripts/train_template.py 和 scripts/env_template.py 提供了可靠的起点
根据需要阅读参考资料：每个参考文件都是独立的，专注于特定功能
逐步优化：从 Python 开始，分析性能，然后在需要时用 C 语言优化关键路径
利用向量化：PufferLib 的向量化是实现高吞吐量的关键
监控训练：使用 WandB 或 Neptune 跟踪实验并及早发现问题
测试环境：在扩大训练规模之前验证环境逻辑
检查现有环境：Ocean 套件提供了 20 多个预构建环境
使用适当的初始化：始终使用 pufferlib.pytorch 中的 layer_init 来初始化策略

在标准基准上训练

# Atari
env = pufferlib.make('atari-pong', num_envs=256)

# Procgen
env = pufferlib.make('procgen-coinrun', num_envs=256)

# Minigrid
env = pufferlib.make('minigrid-empty-8x8', num_envs=256)

# PettingZoo
env = pufferlib.make('pettingzoo-pistonball', num_envs=128)

# 所有智能体的共享策略
policy = create_policy(env.observation_space, env.action_space)
trainer = PuffeRL(env=env, policy=policy)

自定义任务开发

# 创建自定义环境
class MyTask(PufferEnv):
    # ... 实现环境 ...

# 向量化并训练
env = pufferlib.emulate(MyTask, num_envs=256)
trainer = PuffeRL(env=env, policy=my_policy)

# 最大化吞吐量
env = pufferlib.make(
    'my-env',
    num_envs=1024,      # 大批量
    num_workers=16,     # 多个工作进程
    envs_per_worker=64  # 优化每个工作进程
)

uv pip install pufferlib

官方文档：https://puffer.ai/docs.html
GitHub：https://github.com/PufferAI/PufferLib
Discord：提供社区支持

🇺🇸English

PufferLib - High-Performance Reinforcement Learning

Overview

PufferLib is a high-performance reinforcement learning library designed for fast parallel environment simulation and training. It achieves training at millions of steps per second through optimized vectorization, native multi-agent support, and efficient PPO implementation (PuffeRL). The library provides the Ocean suite of 20+ environments and seamless integration with Gymnasium, PettingZoo, and specialized RL frameworks.

When to Use This Skill

Use this skill when:

Training RL agents with PPO on any environment (single or multi-agent)
Creating custom environments using the PufferEnv API
Optimizing performance for parallel environment simulation (vectorization)
Integrating existing environments from Gymnasium, PettingZoo, Atari, Procgen, etc.
Developing policies with CNN, LSTM, or custom architectures
Scaling RL to millions of steps per second for faster experimentation
Multi-agent RL with native multi-agent environment support

Core Capabilities

1. High-Performance Training (PuffeRL)

PuffeRL is PufferLib's optimized PPO+LSTM training algorithm achieving 1M-4M steps/second.

Quick start training:

# CLI training
puffer train procgen-coinrun --train.device cuda --train.learning-rate 3e-4

# Distributed training
torchrun --nproc_per_node=4 train.py

Python training loop:

import pufferlib
from pufferlib import PuffeRL

# Create vectorized environment
env = pufferlib.make('procgen-coinrun', num_envs=256)

# Create trainer
trainer = PuffeRL(
    env=env,
    policy=my_policy,
    device='cuda',
    learning_rate=3e-4,
    batch_size=32768
)

# Training loop
for iteration in range(num_iterations):
    trainer.evaluate()  # Collect rollouts
    trainer.train()     # Train on batch
    trainer.mean_and_log()  # Log results

For comprehensive training guidance , read references/training.md for:

Complete training workflow and CLI options
Hyperparameter tuning with Protein
Distributed multi-GPU/multi-node training
Logger integration (Weights & Biases, Neptune)
Checkpointing and resume training
Performance optimization tips
Curriculum learning patterns

2. Environment Development (PufferEnv)

Create custom high-performance environments with the PufferEnv API.

Basic environment structure:

import numpy as np
from pufferlib import PufferEnv

class MyEnvironment(PufferEnv):
    def __init__(self, buf=None):
        super().__init__(buf)

        # Define spaces
        self.observation_space = self.make_space((4,))
        self.action_space = self.make_discrete(4)

        self.reset()

    def reset(self):
        # Reset state and return initial observation
        return np.zeros(4, dtype=np.float32)

    def step(self, action):
        # Execute action, compute reward, check done
        obs = self._get_observation()
        reward = self._compute_reward()
        done = self._is_done()
        info = {}

        return obs, reward, done, info

Use the template script: scripts/env_template.py provides complete single-agent and multi-agent environment templates with examples of:

Different observation space types (vector, image, dict)
Action space variations (discrete, continuous, multi-discrete)
Multi-agent environment structure
Testing utilities

For complete environment development , read references/environments.md for:

PufferEnv API details and in-place operation patterns
Observation and action space definitions
Multi-agent environment creation
Ocean suite (20+ pre-built environments)
Performance optimization (Python to C workflow)
Environment wrappers and best practices
Debugging and validation techniques

3. Vectorization and Performance

Achieve maximum throughput with optimized parallel simulation.

Vectorization setup:

import pufferlib

# Automatic vectorization
env = pufferlib.make('environment_name', num_envs=256, num_workers=8)

# Performance benchmarks:
# - Pure Python envs: 100k-500k SPS
# - C-based envs: 100M+ SPS
# - With training: 400k-4M total SPS

Key optimizations:

Shared memory buffers for zero-copy observation passing
Busy-wait flags instead of pipes/queues
Surplus environments for async returns
Multiple environments per worker

For vectorization optimization , read references/vectorization.md for:

Architecture and performance characteristics
Worker and batch size configuration
Serial vs multiprocessing vs async modes
Shared memory and zero-copy patterns
Hierarchical vectorization for large scale
Multi-agent vectorization strategies
Performance profiling and troubleshooting

4. Policy Development

Build policies as standard PyTorch modules with optional utilities.

Basic policy structure:

import torch.nn as nn
from pufferlib.pytorch import layer_init

class Policy(nn.Module):
    def __init__(self, observation_space, action_space):
        super().__init__()

        # Encoder
        self.encoder = nn.Sequential(
            layer_init(nn.Linear(obs_dim, 256)),
            nn.ReLU(),
            layer_init(nn.Linear(256, 256)),
            nn.ReLU()
        )

        # Actor and critic heads
        self.actor = layer_init(nn.Linear(256, num_actions), std=0.01)
        self.critic = layer_init(nn.Linear(256, 1), std=1.0)

    def forward(self, observations):
        features = self.encoder(observations)
        return self.actor(features), self.critic(features)

For complete policy development , read references/policies.md for:

CNN policies for image observations
Recurrent policies with optimized LSTM (3x faster inference)
Multi-input policies for complex observations
Continuous action policies
Multi-agent policies (shared vs independent parameters)
Advanced architectures (attention, residual)
Observation normalization and gradient clipping
Policy debugging and testing

5. Environment Integration

Seamlessly integrate environments from popular RL frameworks.

Gymnasium integration:

import gymnasium as gym
import pufferlib

# Wrap Gymnasium environment
gym_env = gym.make('CartPole-v1')
env = pufferlib.emulate(gym_env, num_envs=256)

# Or use make directly
env = pufferlib.make('gym-CartPole-v1', num_envs=256)

PettingZoo multi-agent:

# Multi-agent environment
env = pufferlib.make('pettingzoo-knights-archers-zombies', num_envs=128)

Supported frameworks:

Gymnasium / OpenAI Gym
PettingZoo (parallel and AEC)
Atari (ALE)
Procgen
NetHack / MiniHack
Minigrid
Neural MMO
Crafter
GPUDrive
MicroRTS
Griddly
And more...

For integration details , read references/integration.md for:

Complete integration examples for each framework
Custom wrappers (observation, reward, frame stacking, action repeat)
Space flattening and unflattening
Environment registration
Compatibility patterns
Performance considerations
Integration debugging

Quick Start Workflow

For Training Existing Environments

Choose environment from Ocean suite or compatible framework
Use scripts/train_template.py as starting point
Configure hyperparameters for your task
Run training with CLI or Python script
Monitor with Weights & Biases or Neptune
Refer to references/training.md for optimization

For Creating Custom Environments

Start with scripts/env_template.py
Define observation and action spaces
Implement reset() and step() methods
Test environment locally
Vectorize with pufferlib.emulate() or make()
Refer to references/environments.md for advanced patterns
Optimize with references/vectorization.md if needed

For Policy Development

Choose architecture based on observations:
- Vector observations → MLP policy
- Image observations → CNN policy
- Sequential tasks → LSTM policy
- Complex observations → Multi-input policy
Use layer_init for proper weight initialization
Follow patterns in references/policies.md
Test with environment before full training

For Performance Optimization

Profile current throughput (steps per second)
Check vectorization configuration (num_envs, num_workers)
Optimize environment code (in-place ops, numpy vectorization)
Consider C implementation for critical paths
Use references/vectorization.md for systematic optimization

Resources

scripts/

train_template.py - Complete training script template with:

Environment creation and configuration
Policy initialization
Logger integration (WandB, Neptune)
Training loop with checkpointing
Command-line argument parsing
Multi-GPU distributed training setup

env_template.py - Environment implementation templates:

Single-agent PufferEnv example (grid world)
Multi-agent PufferEnv example (cooperative navigation)
Multiple observation/action space patterns
Testing utilities

references/

training.md - Comprehensive training guide:

Training workflow and CLI options
Hyperparameter configuration
Distributed training (multi-GPU, multi-node)
Monitoring and logging
Checkpointing
Protein hyperparameter tuning
Performance optimization
Common training patterns
Troubleshooting

environments.md - Environment development guide:

PufferEnv API and characteristics
Observation and action spaces
Multi-agent environments
Ocean suite environments
Custom environment development workflow
Python to C optimization path
Third-party environment integration
Wrappers and best practices
Debugging

vectorization.md - Vectorization optimization:

Architecture and key optimizations
Vectorization modes (serial, multiprocessing, async)
Worker and batch configuration
Shared memory and zero-copy patterns
Advanced vectorization (hierarchical, custom)
Multi-agent vectorization
Performance monitoring and profiling
Troubleshooting and best practices

policies.md - Policy architecture guide:

Basic policy structure
CNN policies for images
LSTM policies with optimization
Multi-input policies
Continuous action policies
Multi-agent policies
Advanced architectures (attention, residual)
Observation processing and unflattening
Initialization and normalization
Debugging and testing

integration.md - Framework integration guide:

Gymnasium integration
PettingZoo integration (parallel and AEC)
Third-party environments (Procgen, NetHack, Minigrid, etc.)
Custom wrappers (observation, reward, frame stacking, etc.)
Space conversion and unflattening
Environment registration
Compatibility patterns
Performance considerations
Debugging integration

Tips for Success

Start simple : Begin with Ocean environments or Gymnasium integration before creating custom environments
Profile early : Measure steps per second from the start to identify bottlenecks
Use templates : scripts/train_template.py and scripts/env_template.py provide solid starting points
Read references as needed : Each reference file is self-contained and focused on a specific capability
Optimize progressively : Start with Python, profile, then optimize critical paths with C if needed
Leverage vectorization : PufferLib's vectorization is key to achieving high throughput
Monitor training : Use WandB or Neptune to track experiments and identify issues early
Test environments : Validate environment logic before scaling up training
Check existing environments : Ocean suite provides 20+ pre-built environments
Use proper initialization : Always use layer_init from for policies

Common Use Cases

Training on Standard Benchmarks

# Atari
env = pufferlib.make('atari-pong', num_envs=256)

# Procgen
env = pufferlib.make('procgen-coinrun', num_envs=256)

# Minigrid
env = pufferlib.make('minigrid-empty-8x8', num_envs=256)

Multi-Agent Learning

# PettingZoo
env = pufferlib.make('pettingzoo-pistonball', num_envs=128)

# Shared policy for all agents
policy = create_policy(env.observation_space, env.action_space)
trainer = PuffeRL(env=env, policy=policy)

Custom Task Development

# Create custom environment
class MyTask(PufferEnv):
    # ... implement environment ...

# Vectorize and train
env = pufferlib.emulate(MyTask, num_envs=256)
trainer = PuffeRL(env=env, policy=my_policy)

High-Performance Optimization

# Maximize throughput
env = pufferlib.make(
    'my-env',
    num_envs=1024,      # Large batch
    num_workers=16,     # Many workers
    envs_per_worker=64  # Optimize per worker
)

Installation

uv pip install pufferlib

Documentation

Official docs: https://puffer.ai/docs.html
GitHub: https://github.com/PufferAI/PufferLib
Discord: Community support available

Weekly Installs

120

Repository

davila7/claude-…emplates

GitHub Stars

22.6K

First Seen

Jan 21, 2026

Security Audits

Gen Agent Trust HubPass SocketPass SnykPass

Installed on

claude-code103

opencode96

cursor93

gemini-cli92

antigravity86

codex81

AI Elements：基于shadcn/ui的AI原生应用组件库，快速构建对话界面

63,800 周安装

PufferLib：高性能强化学习库，支持PPO训练与多智能体环境，实现每秒数百万步

🇨🇳中文介绍

PufferLib - 高性能强化学习

概述

何时使用此技能

核心功能

1. 高性能训练（PuffeRL）

相关 Skills

2. 环境开发（PufferEnv）

3. 向量化与性能

4. 策略开发

5. 环境集成

快速入门工作流程

用于训练现有环境

用于创建自定义环境

用于策略开发

用于性能优化

资源

scripts/

references/

成功秘诀

常见用例

在标准基准上训练

多智能体学习

自定义任务开发

高性能优化

安装

文档

🇺🇸English

PufferLib - High-Performance Reinforcement Learning

Overview

When to Use This Skill

Core Capabilities

1. High-Performance Training (PuffeRL)

2. Environment Development (PufferEnv)

3. Vectorization and Performance

4. Policy Development

5. Environment Integration

Quick Start Workflow

For Training Existing Environments

For Creating Custom Environments

For Policy Development

For Performance Optimization

Resources

scripts/

references/

Tips for Success

Common Use Cases

Training on Standard Benchmarks

Multi-Agent Learning

Custom Task Development

High-Performance Optimization

Installation

Documentation

最新 Skills