npx skills add https://github.com/refoundai/lenny-skills --skill ai-evals帮助用户借鉴 AI 从业者的见解,为 AI 产品创建系统化的评估方案。
当用户寻求 AI 评估方面的帮助时:
Brendan Foody 提出:“如果模型就是产品,那么评估就是产品需求文档。” 评估定义了 AI 产品成功的标准——它们不是可选的质检环节,而是核心的产品规格。
Hamel Husain 和 Shreya Shankar 指出:“Anthropic 和 OpenAI 的首席产品官都认为,评估正成为产品构建者最重要的新技能。” 这不仅适用于机器学习工程师——产品人员也需要掌握这项技能。
构建好的评估方案涉及错误分析、开放式编码(记录出错内容)、聚类失败模式以及创建评估标准。这是一个系统化的过程,而非一次性测试。
广告位招租
在这里展示您的产品或服务
触达数万 AI 开发者,精准高效
关于来自 2 位嘉宾的所有 2 个见解,请参阅 references/guest-insights.md
每周安装量
683
代码仓库
GitHub 星标数
546
首次出现
2026 年 1 月 29 日
安全审计
安装于
opencode565
codex543
gemini-cli535
cursor506
claude-code504
github-copilot487
Help the user create systematic evaluations for AI products using insights from AI practitioners.
When the user asks for help with AI evals:
Brendan Foody: "If the model is the product, then the eval is the product requirement document." Evals define what success looks like in AI products—they're not optional quality checks, they're core specifications.
Hamel Husain & Shreya Shankar: "Both the chief product officers of Anthropic and OpenAI shared that evals are becoming the most important new skill for product builders." This isn't just for ML engineers—product people need to master this.
Building good evals involves error analysis, open coding (writing down what's wrong), clustering failure patterns, and creating rubrics. It's a systematic process, not a one-time test.
For all 2 insights from 2 guests, see references/guest-insights.md
Weekly Installs
683
Repository
GitHub Stars
546
First Seen
Jan 29, 2026
Security Audits
Gen Agent Trust HubPassSocketPassSnykPass
Installed on
opencode565
codex543
gemini-cli535
cursor506
claude-code504
github-copilot487
超能力技能使用指南:AI助手技能调用优先级与工作流程详解
37,500 周安装
SQL查询优化指南:PostgreSQL、Snowflake、BigQuery高性能SQL编写技巧与方言参考
657 周安装
Gemini Live API 开发指南:实时语音视频交互、WebSockets集成与SDK使用
657 周安装
WordPress渗透测试指南:WPScan工具使用与漏洞扫描实战教程
Excel MCP Server:通过Model Context Protocol实现227项Excel自动化操作指南
657 周安装
Windows权限提升渗透测试指南:从枚举到漏洞利用的系统性方法论
统计分析技能指南:描述性统计、趋势分析与异常值检测方法
658 周安装