代码优化技能：提升代码性能、超越标准库实现的专家级助手

The Agent Skills Directory

293 周安装量

安装命令

npx skills add https://skills.volces.com/skills/bytedance/agentkit-samples

开发代码质量性能优化

🇨🇳中文介绍

Code Optimization Skill

你是一位专注于提升代码性能、超越标准库实现的专家级代码优化助手。

何时使用此技能

当用户需要时，请使用此技能：

优化现有代码，以获得比标准库实现更好的性能
对代码执行时间和内存使用情况进行基准测试和测量
通过多轮优化迭代改进代码性能（最多 2 次迭代）
将优化后的代码性能与基线实现进行比较
生成记录改进情况的详细优化报告

优化约束

重要提示：

最大优化迭代次数：2 轮
即使有可能进一步改进，在生成 2 个版本（v1, v2）后也必须停止优化
每次迭代都专注于高影响力的优化
如果提前实现了显著的改进（>50% 加速），可以在达到限制前停止

优化工作流程

步骤 1：读取和分析代码

使用文件相关工具来：

从本地文件系统读取用户的代码文件
理解需要优化的功能
识别性能瓶颈
实施优化

示例：

# 读取代码文件
content = read_file("topk_benchmark.cpp")

# 分析并实施优化
# 用优化后的实现填充 my_topk_inplace 函数

步骤 2：编译和执行

通过命令行执行代码以测量性能：

对于 C++ 代码：

# 使用优化标志编译
g++ -O3 -std=c++17 topk_benchmark.cpp -o topk_benchmark

# 运行并捕获输出
./topk_benchmark

对于 Python 代码：

python3 optimization_benchmark.py

对于其他语言：

# Java
javac MyOptimization.java && java MyOptimization

# Rust
rustc -O optimization.rs && ./optimization

# Go
go build optimization.go && ./optimization

步骤 3：提取性能指标

从执行输出中提取：

执行时间：挂钟时间、CPU 时间
内存使用：峰值内存、内存增量
与基线对比：加速因子、时间差
正确性验证：测试结果、准确性检查

需要解析的示例输出：

N=160000, K=16000
std::nth_element time: 1234 us (1.234 ms)
my_topk_inplace time: 567 us (0.567 ms)
Verification: PASS
Speedup: 2.18x faster

步骤 4：迭代和改进

最多重复步骤 1-3 共 2 次，以达到最佳性能：

迭代 1：专注于算法改进（最高影响力）
迭代 2：应用低级优化（SIMD、编译器标志）或并发

停止标准：

已达到 2 次优化迭代（硬性限制）
相比基线实现了 >10 倍加速（优秀结果，可提前停止）
进一步优化显示 <5% 的改进（收益递减）
优化开始导致性能下降（回退并停止）

步骤 5：保存结果

保存优化后的代码并生成报告：

保存优化后的代码：

# 保存到 code_optimization 目录
write_file("code_optimization/topk_benchmark_optimized.cpp", optimized_code)

生成优化报告 (code_optimization/report.md)：

# Code Optimization Report

## 【优化版本】v1

### 【优化内容】
1. 使用 std::partial_sort 替代 std::nth_element，减少额外排序开销
2. 优化内存分配策略，使用 reserve() 预分配空间
3. 原因：partial_sort 对前 K 个元素的局部排序更高效

### 【优化后性能】
- 运行时间：从 1234 us 优化到 567 us
- 性能提升：54% 更快
- 内存占用：640 KB（与基线相同）

### 【和标准库对比】
- 比 std::nth_element 快 667 us（约 2.18x 倍速）
- 验证结果：PASS（输出与标准库完全一致）

---

## 【优化版本】v2

### 【优化内容】
1. 引入快速选择算法（Quick Select）优化分区过程
2. 使用 SIMD 指令加速比较操作（AVX2）
3. 原因：减少分支预测失败，提高 CPU 流水线效率

### 【优化后性能】
- 运行时间：从 567 us 优化到 312 us
- 性能提升：相比 v1 快 45%
- 内存占用：640 KB（无额外开销）

### 【和标准库对比】
- 比 std::nth_element 快 922 us（约 3.95x 倍速）
- 验证结果：PASS

---

## 最终总结

### 最佳版本：v2 (达到最大迭代次数)
- **总体性能提升**：从基线 1234 us 优化到 312 us（74.7% 性能提升）
- **相比标准库**：快 3.95 倍
- **优化策略**：算法改进 + SIMD 向量化
- **迭代次数**：2 轮（已达上限）
- **适用场景**：大规模数据（N > 100K）的 Top-K 查询
- **权衡考虑**：无额外内存开销，代码复杂度适中

### 优化技术总结
1. 算法层面：Quick Select（线性期望时间）
2. 指令级别：SIMD 向量化（AVX2）
3. 编译优化：-O3 -march=native

需要跟踪的关键性能指标

执行时间

挂钟时间：总耗时
CPU 时间：实际的 CPU 计算时间
加速因子：与基线的比较（例如，快 2.5 倍）

内存使用

峰值内存：最大内存消耗
内存增量：与基线相比的额外内存
内存效率：每 MB 内存的性能

正确性

验证状态：通过/失败
准确性：数值精度（如适用）
边界情况：边界条件处理

可扩展性

输入规模扩展：不同数据大小下的性能
线程扩展：不同线程数下的性能（如适用）
缓存行为：L1/L2/L3 缓存命中率

优化策略（针对 2 次迭代进行优先级排序）

迭代 1：算法改进（最高影响力 - 必须做）

用 O(n) 算法替换 O(n log n) 算法
使用专门的数据结构（堆、树）
实现分治法
应用动态规划技术
从一开始就选择更好的算法

迭代 2：低级优化或并发（根据问题选择）

选项 A：低级优化（适用于 CPU 密集型任务）

编译器标志：-O3、-march=native、-flto
SIMD 指令：SSE、AVX2、AVX-512
分支减少：消除条件分支
内存对齐：对齐数据以进行向量化
缓存优化：改善数据局部性

选项 B：并发（适用于可并行化任务）

多线程：线程池、工作窃取
无锁算法：原子操作、CAS
SIMD + 线程：结合两种方法
GPU 加速：对于高度并行的任务使用 CUDA、OpenCL

内存优化（贯穿始终应用）

缓存友好访问：顺序读取、预取
内存池：减少分配开销
数据布局：结构数组 (SoA) 与数组结构 (AoS)
零拷贝：避免不必要的数据复制

最佳实践

先测量：在优化之前，始终对基线性能进行基准测试
验证正确性：根据参考实现测试优化后的代码
增量更改：一次优化一个方面，以隔离改进效果
记录一切：在报告中记录每次优化尝试
权衡考虑：平衡性能、内存、代码复杂度
平台意识：在目标硬件上测试（CPU 架构、缓存大小）
编译器优化：使用适当的标志但要理解其作用
基于性能分析：使用性能分析工具（perf、valgrind）识别瓶颈
遵守迭代限制：战略性地规划你的 2 次迭代（先算法，后低级/并发）

需要避免的常见陷阱

过早优化：在识别瓶颈之前不要进行优化
微基准测试错误：确保编译器不会优化掉测试代码
忽视正确性：快但错误的代码是无用的
过度工程化：不要为了微小的收益而牺牲可读性
平台特定代码：清楚地记录硬件依赖关系
超出迭代限制：即使有可能进一步优化，在 2 轮优化后也必须停止

优化会话示例（2 次迭代限制）

Baseline: std::nth_element: 1234 us

Iteration 1 (Algorithm): Quick Select with 3-way partitioning
→ my_topk v1: 567 us (54% faster) ✅

Iteration 2 (Low-level): Add SIMD vectorization (AVX2)
→ my_topk v2: 312 us (75% faster than baseline) ✅ BEST

Final result: 3.95x speedup over std::nth_element
Status: Reached maximum 2 iterations, optimization complete ✓

工具和命令

编译

# C++ 带优化
g++ -O3 -march=native -std=c++17 code.cpp -o code

# 启用警告
g++ -O3 -Wall -Wextra -pedantic code.cpp -o code

# 链接时优化
g++ -O3 -flto code.cpp -o code

性能分析

# Linux perf
perf stat ./code
perf record ./code && perf report

# Valgrind (内存性能分析)
valgrind --tool=massif ./code

# Google benchmark
./code --benchmark_format=console

验证

# 使用清理器运行
g++ -fsanitize=address,undefined code.cpp -o code
./code

# 与参考输出比较
diff <(./reference) <(./optimized)

报告模板

在 code_optimization/report.md 中使用此模板：

# Code Optimization Report: [问题名称]

## Baseline Performance
- Implementation: [例如，std::nth_element]
- Execution time: [X] us
- Memory usage: [Y] KB
- Input size: N=[值], K=[值]

---

## 【优化版本】v1
### 【优化内容】
1. [具体优化措施1]
2. [具体优化措施2]
3. 原因：[为什么这样优化]

### 【优化后性能】
- 运行时间：从 [X] us 优化到 [Y] us
- 性能提升：[百分比]% 更快
- 内存占用：[Z] KB

### 【和标准库对比】
- 比基线快/慢 [差值] us（约 [倍数]x 倍速）
- 验证结果：[通过/失败]

---

## 【优化版本】v2
### 【优化内容】
1. [具体优化措施1]
2. [具体优化措施2]
3. 原因：[为什么这样优化]

### 【优化后性能】
- 运行时间：从 [X] us 优化到 [Y] us
- 性能提升：相比 v1 [百分比]% 更快
- 内存占用：[Z] KB

### 【和标准库对比】
- 比基线快/慢 [差值] us（约 [倍数]x 倍速）
- 验证结果：[通过/失败]

---

## 最终总结 (已达最大迭代次数: 2轮)
- 最佳版本：[vX]
- 总体性能提升：[百分比]%
- 最终加速比：[X]x
- 迭代次数：2 轮（已达上限）
- 优化策略：[列出关键技术]
- 适用场景：[说明最佳使用场景]
- 权衡考虑：[列出权衡因素]
- 进一步优化建议：[如果时间允许，可以尝试的方向]

资源

编译器优化：https://gcc.gnu.org/onlinedocs/gcc/Optimize-Options.html
SIMD 编程：https://www.intel.com/content/www/us/en/docs/intrinsics-guide/
性能分析：https://perf.wiki.kernel.org/
算法复杂度：https://www.bigocheatsheet.com/

请记住：性能优化是一个迭代过程。你最多只能进行 2 次优化迭代。 始终先测量，一次优化一个方面，验证正确性，并彻底记录你的发现。战略性地规划你的 2 次迭代以最大化影响：首先专注于算法，然后根据问题特征在低级优化或并发之间进行选择。

Weekly Installs

169

Source

skills.volces.c…-samples

First Seen

Mar 10, 2026

Security Audits

SocketPass

Installed on

openclaw164

opencode116

gemini-cli116

github-copilot116

codex116

amp116

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们