PyTorch AT_DISPATCH_V2 宏转换指南：升级ATen内核分发API

at-dispatch-v2 by pytorch/pytorch

353 周安装量

98,800 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/pytorch/pytorch --skill at-dispatch-v2

AI/机器学习开发代码规范

🇨🇳中文介绍

AT_DISPATCH 到 AT_DISPATCH_V2 转换器

此技能帮助将 PyTorch 的旧版 AT_DISPATCH 宏转换为新的 AT_DISPATCH_V2 格式，该格式定义于 aten/src/ATen/Dispatch_v2.h 中。

何时使用此技能

在以下情况下使用此技能：

将 AT_DISPATCH_* 宏转换为 AT_DISPATCH_V2
移植 ATen 内核以使用新的分发 API
处理 aten/src/ATen/native/ 目录下使用分发宏的文件
用户提及 "AT_DISPATCH"、"dispatch v2"、"Dispatch_v2.h" 或宏转换

快速参考

旧格式：

AT_DISPATCH_ALL_TYPES_AND3(kBFloat16, kHalf, kBool, dtype, "kernel_name", [&]() {
  // lambda 函数体
});

新格式：

AT_DISPATCH_V2(dtype, "kernel_name", AT_WRAP([&]() {
  // lambda 函数体
}), AT_EXPAND(AT_ALL_TYPES), kBFloat16, kHalf, kBool);

关键转换步骤

重排参数顺序：scalar_type 和在前，然后是 lambda 函数，最后是类型列表

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

步骤 1：添加 Dispatch_v2.h 包含头文件

在现有的 #include <ATen/Dispatch.h> 附近添加 v2 头文件：

#include <ATen/Dispatch.h>
#include <ATen/Dispatch_v2.h>

暂时保留旧的 Dispatch.h 包含（其他代码可能仍需要它）。

步骤 2：识别旧的分发模式

需要转换的常见模式：

AT_DISPATCH_ALL_TYPES_AND{2,3,4}(type1, type2, ..., scalar_type, name, lambda)
AT_DISPATCH_FLOATING_TYPES_AND{2,3}(type1, type2, ..., scalar_type, name, lambda)
AT_DISPATCH_ALL_TYPES_AND_COMPLEX_AND{2,3}(type1, ..., scalar_type, name, lambda)
AT_DISPATCH_FLOATING_AND_COMPLEX_TYPES_AND{2,3}(type1, ..., scalar_type, name, lambda)

步骤 3：将旧宏映射到类型组

识别哪个类型组宏对应于基础类型：

旧宏基础	AT_DISPATCH_V2 类型组
`ALL_TYPES`	`AT_EXPAND(AT_ALL_TYPES)`
`FLOATING_TYPES`	`AT_EXPAND(AT_FLOATING_TYPES)`
`INTEGRAL_TYPES`	`AT_EXPAND(AT_INTEGRAL_TYPES)`
`COMPLEX_TYPES`	`AT_EXPAND(AT_COMPLEX_TYPES)`
`ALL_TYPES_AND_COMPLEX`	`AT_EXPAND(AT_ALL_TYPES_AND_COMPLEX)`

对于组合模式，使用多个 AT_EXPAND() 条目：

// 旧：AT_DISPATCH_ALL_TYPES_AND_COMPLEX_AND2(...)
// 新：AT_EXPAND(AT_ALL_TYPES), AT_EXPAND(AT_COMPLEX_TYPES), type1, type2

步骤 4：提取单独类型

从 AT_DISPATCH_*_AND2(type1, type2, ...) 或 AT_DISPATCH_*_AND3(type1, type2, type3, ...) 中提取单独类型（type1、type2 等）。

这些成为类型组之后的尾部参数：

AT_DISPATCH_V2(..., AT_EXPAND(AT_ALL_TYPES), kBFloat16, kHalf, kBool)
                                             ^^^^^^^^^^^^^^^^^^^^^^^^
                                             来自 AND3 的单独类型

步骤 5：转换为 AT_DISPATCH_V2

AT_DISPATCH_V2(
  scalar_type,           // 第 1 个：dtype 表达式
  "name",                // 第 2 个：调试字符串
  AT_WRAP(lambda),       // 第 3 个：用 AT_WRAP 包装的 lambda 函数
  type_groups,           // 第 4 个及之后：使用 AT_EXPAND() 的类型组
  individual_types       // 最后：单独类型
)

// 转换前
AT_DISPATCH_ALL_TYPES_AND3(
    kBFloat16, kHalf, kBool,
    iter.dtype(),
    "min_values_cuda",
    [&]() {
      min_values_kernel_cuda_impl<scalar_t>(iter);
    }
);

// 转换后
AT_DISPATCH_V2(
    iter.dtype(),
    "min_values_cuda",
    AT_WRAP([&]() {
      min_values_kernel_cuda_impl<scalar_t>(iter);
    }),
    AT_EXPAND(AT_ALL_TYPES),
    kBFloat16, kHalf, kBool
);

步骤 6：处理多行 lambda 函数

对于包含内部逗号或复杂表达式的 lambda 函数，AT_WRAP 是必需的：

AT_DISPATCH_V2(
    dtype,
    "complex_kernel",
    AT_WRAP([&]() {
      gpu_reduce_kernel<scalar_t, scalar_t>(
        iter,
        MinOps<scalar_t>{},
        thrust::pair<scalar_t, int64_t>(upper_bound(), 0)  // 内部有逗号！
      );
    }),
    AT_EXPAND(AT_ALL_TYPES)
);

步骤 7：验证转换

检查以下内容：

AT_WRAP() 包装了整个 lambda 函数
类型组使用了 AT_EXPAND()
单独类型没有 AT_EXPAND()（只是 kBFloat16，而不是 AT_EXPAND(kBFloat16)）
参数顺序为：scalar_type, name, lambda, types
已添加包含头文件：#include <ATen/Dispatch_v2.h>

可用的类型组宏（与 AT_EXPAND() 一起使用）：

AT_INTEGRAL_TYPES      // kByte, kChar, kInt, kLong, kShort
AT_FLOATING_TYPES      // kDouble, kFloat
AT_COMPLEX_TYPES       // kComplexDouble, kComplexFloat
AT_QINT_TYPES         // kQInt8, kQUInt8, kQInt32
AT_ALL_TYPES          // INTEGRAL_TYPES + FLOATING_TYPES
AT_ALL_TYPES_AND_COMPLEX  // ALL_TYPES + COMPLEX_TYPES
AT_INTEGRAL_TYPES_V2  // INTEGRAL_TYPES + 无符号类型
AT_BAREBONES_UNSIGNED_TYPES  // kUInt16, kUInt32, kUInt64
AT_FLOAT8_TYPES       // Float8 变体

模式：AT_DISPATCH_ALL_TYPES_AND2

// 转换前
AT_DISPATCH_ALL_TYPES_AND2(kHalf, kBFloat16, dtype, "op", [&]() {
  kernel<scalar_t>(data);
});

// 转换后
AT_DISPATCH_V2(dtype, "op", AT_WRAP([&]() {
  kernel<scalar_t>(data);
}), AT_EXPAND(AT_ALL_TYPES), kHalf, kBFloat16);

模式：AT_DISPATCH_FLOATING_TYPES_AND3

// 转换前
AT_DISPATCH_FLOATING_TYPES_AND3(kHalf, kBFloat16, kFloat8_e4m3fn,
    tensor.scalar_type(), "float_op", [&] {
  process<scalar_t>(tensor);
});

// 转换后
AT_DISPATCH_V2(tensor.scalar_type(), "float_op", AT_WRAP([&] {
  process<scalar_t>(tensor);
}), AT_EXPAND(AT_FLOATING_TYPES), kHalf, kBFloat16, kFloat8_e4m3fn);

模式：AT_DISPATCH_ALL_TYPES_AND_COMPLEX_AND2

// 转换前
AT_DISPATCH_ALL_TYPES_AND_COMPLEX_AND2(
    kComplexHalf, kHalf,
    self.scalar_type(),
    "complex_op",
    [&] {
      result = compute<scalar_t>(self);
    }
);

// 转换后
AT_DISPATCH_V2(
    self.scalar_type(),
    "complex_op",
    AT_WRAP([&] {
      result = compute<scalar_t>(self);
    }),
    AT_EXPAND(AT_ALL_TYPES),
    AT_EXPAND(AT_COMPLEX_TYPES),
    kComplexHalf,
    kHalf
);

情况 1：无额外类型（罕见）

// 转换前
AT_DISPATCH_ALL_TYPES(dtype, "op", [&]() { kernel<scalar_t>(); });

// 转换后
AT_DISPATCH_V2(dtype, "op", AT_WRAP([&]() {
  kernel<scalar_t>();
}), AT_EXPAND(AT_ALL_TYPES));

情况 2：多个单独类型（AND4、AND5 等）

// 转换前
AT_DISPATCH_FLOATING_TYPES_AND4(kHalf, kBFloat16, kFloat8_e4m3fn, kFloat8_e5m2,
    dtype, "float8_op", [&]() { kernel<scalar_t>(); });

// 转换后
AT_DISPATCH_V2(dtype, "float8_op", AT_WRAP([&]() {
  kernel<scalar_t>();
}), AT_EXPAND(AT_FLOATING_TYPES), kHalf, kBFloat16, kFloat8_e4m3fn, kFloat8_e5m2);

情况 3：无捕获的 Lambda 函数

// 转换前
AT_DISPATCH_ALL_TYPES_AND2(kHalf, kBool, dtype, "op", []() {
  static_kernel<scalar_t>();
});

// 转换后
AT_DISPATCH_V2(dtype, "op", AT_WRAP([]() {
  static_kernel<scalar_t>();
}), AT_EXPAND(AT_ALL_TYPES), kHalf, kBool);

AT_DISPATCH_V2 的优势

宏名中无参数数量：不需要为 AND2、AND3、AND4 使用不同的宏
可组合的类型集合：使用 AT_EXPAND() 混合和匹配类型组
可扩展：易于添加更多类型，不会达到宏限制
更清晰：类型组是显式的，而不是隐含在宏名中

保留 #include <ATen/Dispatch.h> - 其他代码可能需要它
AT_WRAP() 是强制性的 - 防止 lambda 函数中的逗号解析问题
类型组需要 AT_EXPAND()，单独类型不需要
v2 API 位于 aten/src/ATen/Dispatch_v2.h - 请参考它以获取完整文档
查看头文件以获取用于重新生成宏实现的 Python 脚本

当被要求转换 AT_DISPATCH 宏时：

读取文件以识别所有 AT_DISPATCH 使用
如果不存在，则添加 #include <ATen/Dispatch_v2.h>
对于每个分发宏：
- 识别模式并提取组件
- 映射基础类型组
- 提取单独类型
- 构造 AT_DISPATCH_V2 调用
- 使用编辑工具应用
向用户展示完整转换后的文件
解释所做的更改

请勿编译或测试代码 - 仅专注于准确转换。

2026 年 1 月 20 日

🇺🇸English

AT_DISPATCH to AT_DISPATCH_V2 Converter

This skill helps convert PyTorch's legacy AT_DISPATCH macros to the new AT_DISPATCH_V2 format, as defined in aten/src/ATen/Dispatch_v2.h.

When to use this skill

Use this skill when:

Converting AT_DISPATCH_* macros to AT_DISPATCH_V2
Porting ATen kernels to use the new dispatch API
Working with files in aten/src/ATen/native/ that use dispatch macros
User mentions "AT_DISPATCH", "dispatch v2", "Dispatch_v2.h", or macro conversion

Quick reference

Old format:

AT_DISPATCH_ALL_TYPES_AND3(kBFloat16, kHalf, kBool, dtype, "kernel_name", [&]() {
  // lambda body
});

New format:

AT_DISPATCH_V2(dtype, "kernel_name", AT_WRAP([&]() {
  // lambda body
}), AT_EXPAND(AT_ALL_TYPES), kBFloat16, kHalf, kBool);

Key transformations

Reorder arguments : scalar_type and name come first, then lambda, then types
Wrap the lambda : Use AT_WRAP(lambda) to handle internal commas
Expand type groups : Use AT_EXPAND(AT_ALL_TYPES) instead of implicit expansion
List individual types : Add extra types (kHalf, kBFloat16, etc.) after expanded groups
Add include : #include <ATen/Dispatch_v2.h> near other Dispatch includes

Instructions

Step 1: Add the Dispatch_v2.h include

Add the v2 header near the existing #include <ATen/Dispatch.h>:

#include <ATen/Dispatch.h>
#include <ATen/Dispatch_v2.h>

Keep the old Dispatch.h include for now (other code may still need it).

Step 2: Identify the old dispatch pattern

Common patterns to convert:

AT_DISPATCH_ALL_TYPES_AND{2,3,4}(type1, type2, ..., scalar_type, name, lambda)
AT_DISPATCH_FLOATING_TYPES_AND{2,3}(type1, type2, ..., scalar_type, name, lambda)
AT_DISPATCH_ALL_TYPES_AND_COMPLEX_AND{2,3}(type1, ..., scalar_type, name, lambda)
AT_DISPATCH_FLOATING_AND_COMPLEX_TYPES_AND{2,3}(type1, ..., scalar_type, name, lambda)

Step 3: Map the old macro to type groups

Identify which type group macro corresponds to the base types:

Old macro base	AT_DISPATCH_V2 type group
`ALL_TYPES`	`AT_EXPAND(AT_ALL_TYPES)`
`FLOATING_TYPES`	`AT_EXPAND(AT_FLOATING_TYPES)`
`INTEGRAL_TYPES`	`AT_EXPAND(AT_INTEGRAL_TYPES)`
`COMPLEX_TYPES`	`AT_EXPAND(AT_COMPLEX_TYPES)`

For combined patterns, use multiple AT_EXPAND() entries:

// Old: AT_DISPATCH_ALL_TYPES_AND_COMPLEX_AND2(...)
// New: AT_EXPAND(AT_ALL_TYPES), AT_EXPAND(AT_COMPLEX_TYPES), type1, type2

Step 4: Extract the individual types

From AT_DISPATCH_*_AND2(type1, type2, ...) or AT_DISPATCH_*_AND3(type1, type2, type3, ...), extract the individual types (type1, type2, etc.).

These become the trailing arguments after the type group:

AT_DISPATCH_V2(..., AT_EXPAND(AT_ALL_TYPES), kBFloat16, kHalf, kBool)
                                             ^^^^^^^^^^^^^^^^^^^^^^^^
                                             Individual types from AND3

Step 5: Transform to AT_DISPATCH_V2

Apply the transformation:

Pattern:

AT_DISPATCH_V2(
  scalar_type,           // 1st: The dtype expression
  "name",                // 2nd: The debug string
  AT_WRAP(lambda),       // 3rd: The lambda wrapped in AT_WRAP
  type_groups,           // 4th+: Type groups with AT_EXPAND()
  individual_types       // Last: Individual types
)

Example transformation:

// BEFORE
AT_DISPATCH_ALL_TYPES_AND3(
    kBFloat16, kHalf, kBool,
    iter.dtype(),
    "min_values_cuda",
    [&]() {
      min_values_kernel_cuda_impl<scalar_t>(iter);
    }
);

// AFTER
AT_DISPATCH_V2(
    iter.dtype(),
    "min_values_cuda",
    AT_WRAP([&]() {
      min_values_kernel_cuda_impl<scalar_t>(iter);
    }),
    AT_EXPAND(AT_ALL_TYPES),
    kBFloat16, kHalf, kBool
);

Step 6: Handle multi-line lambdas

For lambdas with internal commas or complex expressions, AT_WRAP is essential:

AT_DISPATCH_V2(
    dtype,
    "complex_kernel",
    AT_WRAP([&]() {
      gpu_reduce_kernel<scalar_t, scalar_t>(
        iter,
        MinOps<scalar_t>{},
        thrust::pair<scalar_t, int64_t>(upper_bound(), 0)  // Commas inside!
      );
    }),
    AT_EXPAND(AT_ALL_TYPES)
);

Step 7: Verify the conversion

Check that:

AT_WRAP() wraps the entire lambda
Type groups use AT_EXPAND()
Individual types don't have AT_EXPAND() (just kBFloat16, not AT_EXPAND(kBFloat16))
Argument order is: scalar_type, name, lambda, types
Include added: #include <ATen/Dispatch_v2.h>

Type group reference

Available type group macros (use with AT_EXPAND()):

AT_INTEGRAL_TYPES      // kByte, kChar, kInt, kLong, kShort
AT_FLOATING_TYPES      // kDouble, kFloat
AT_COMPLEX_TYPES       // kComplexDouble, kComplexFloat
AT_QINT_TYPES         // kQInt8, kQUInt8, kQInt32
AT_ALL_TYPES          // INTEGRAL_TYPES + FLOATING_TYPES
AT_ALL_TYPES_AND_COMPLEX  // ALL_TYPES + COMPLEX_TYPES
AT_INTEGRAL_TYPES_V2  // INTEGRAL_TYPES + unsigned types
AT_BAREBONES_UNSIGNED_TYPES  // kUInt16, kUInt32, kUInt64
AT_FLOAT8_TYPES       // Float8 variants

Common patterns

Pattern: AT_DISPATCH_ALL_TYPES_AND2

// Before
AT_DISPATCH_ALL_TYPES_AND2(kHalf, kBFloat16, dtype, "op", [&]() {
  kernel<scalar_t>(data);
});

// After
AT_DISPATCH_V2(dtype, "op", AT_WRAP([&]() {
  kernel<scalar_t>(data);
}), AT_EXPAND(AT_ALL_TYPES), kHalf, kBFloat16);

Pattern: AT_DISPATCH_FLOATING_TYPES_AND3

// Before
AT_DISPATCH_FLOATING_TYPES_AND3(kHalf, kBFloat16, kFloat8_e4m3fn,
    tensor.scalar_type(), "float_op", [&] {
  process<scalar_t>(tensor);
});

// After
AT_DISPATCH_V2(tensor.scalar_type(), "float_op", AT_WRAP([&] {
  process<scalar_t>(tensor);
}), AT_EXPAND(AT_FLOATING_TYPES), kHalf, kBFloat16, kFloat8_e4m3fn);

Pattern: AT_DISPATCH_ALL_TYPES_AND_COMPLEX_AND2

// Before
AT_DISPATCH_ALL_TYPES_AND_COMPLEX_AND2(
    kComplexHalf, kHalf,
    self.scalar_type(),
    "complex_op",
    [&] {
      result = compute<scalar_t>(self);
    }
);

// After
AT_DISPATCH_V2(
    self.scalar_type(),
    "complex_op",
    AT_WRAP([&] {
      result = compute<scalar_t>(self);
    }),
    AT_EXPAND(AT_ALL_TYPES),
    AT_EXPAND(AT_COMPLEX_TYPES),
    kComplexHalf,
    kHalf
);

Edge cases

Case 1: No extra types (rare)

// Before
AT_DISPATCH_ALL_TYPES(dtype, "op", [&]() { kernel<scalar_t>(); });

// After
AT_DISPATCH_V2(dtype, "op", AT_WRAP([&]() {
  kernel<scalar_t>();
}), AT_EXPAND(AT_ALL_TYPES));

Case 2: Many individual types (AND4, AND5, etc.)

// Before
AT_DISPATCH_FLOATING_TYPES_AND4(kHalf, kBFloat16, kFloat8_e4m3fn, kFloat8_e5m2,
    dtype, "float8_op", [&]() { kernel<scalar_t>(); });

// After
AT_DISPATCH_V2(dtype, "float8_op", AT_WRAP([&]() {
  kernel<scalar_t>();
}), AT_EXPAND(AT_FLOATING_TYPES), kHalf, kBFloat16, kFloat8_e4m3fn, kFloat8_e5m2);

Case 3: Lambda with no captures

// Before
AT_DISPATCH_ALL_TYPES_AND2(kHalf, kBool, dtype, "op", []() {
  static_kernel<scalar_t>();
});

// After
AT_DISPATCH_V2(dtype, "op", AT_WRAP([]() {
  static_kernel<scalar_t>();
}), AT_EXPAND(AT_ALL_TYPES), kHalf, kBool);

Benefits of AT_DISPATCH_V2

No arity in macro name : Don't need different macros for AND2, AND3, AND4
Composable type sets : Mix and match type groups with AT_EXPAND()
Extensible : Easy to add more types without hitting macro limits
Clearer : Type groups are explicit, not implicit in macro name

Important notes

Keep #include <ATen/Dispatch.h> - other code may need it
The AT_WRAP() is mandatory - prevents comma parsing issues in the lambda
Type groups need AT_EXPAND(), individual types don't
The v2 API is in aten/src/ATen/Dispatch_v2.h - refer to it for full docs
See the header file for the Python script to regenerate the macro implementation

Workflow

When asked to convert AT_DISPATCH macros:

Read the file to identify all AT_DISPATCH uses
Add #include <ATen/Dispatch_v2.h> if not present
For each dispatch macro:
- Identify the pattern and extract components
- Map the base type group
- Extract individual types
- Construct the AT_DISPATCH_V2 call
- Apply with Edit tool
Show the user the complete converted file
Explain what was changed

Do NOT compile or test the code - focus on accurate conversion only.

Weekly Installs

203

Repository

pytorch/pytorch

GitHub Stars

98.5K

First Seen

Jan 20, 2026

Security Audits

Gen Agent Trust HubPass SocketPass SnykPass

Installed on

claude-code190

opencode189

cursor187

gemini-cli184

codex184

github-copilot175

React 组合模式指南：Vercel 组件架构最佳实践，提升代码可维护性

113,700 周安装