⚠️

重要前提

安装AI Skills的关键前提是：必须科学上网，且开启TUN模式，这一点至关重要，直接决定安装能否顺利完成，在此郑重提醒三遍：科学上网，科学上网，科学上网。查看完整安装教程 →

AI/ML黄金数据集构建与管理框架：数据整理、验证与自动化工作流

golden-dataset by yonatangross/orchestkit

68 周安装量

132 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/yonatangross/orchestkit --skill golden-dataset

AI/机器学习数据处理测试

🇨🇳中文介绍

黄金数据集

用于构建、管理和验证 AI/ML 评估黄金数据集的综合模式。每个类别在 rules/ 目录下都有独立的规则文件，按需加载。

快速参考

类别	规则数	影响	使用场景
数据整理	3	高	内容收集、标注流程、多样性分析
数据管理	3	高	版本控制、备份/恢复、CI/CD 自动化
数据验证	3	关键	质量评分、漂移检测、回归测试
添加工作流	1	高	9 阶段整理、质量评分、偏见检测、白银到黄金转换

总计：4 个类别共 10 条规则

数据整理

黄金数据集的内容收集、多智能体标注和多样性分析。

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

相关 Skills

find-skills 技能搜索工具 - Vercel Labs 开源智能体技能包管理器

917,400 周安装

React 组合模式指南：Vercel 组件架构最佳实践，提升代码可维护性

122,000 周安装

AI Elements：基于shadcn/ui的AI原生应用组件库，快速构建对话界面

71,500 周安装

SoulTrace 人格评估 API - 基于五色心理模型的贝叶斯自适应测试

56,700 周安装

黄金数据集的版本控制、存储和 CI/CD 自动化。

规则	文件	关键模式
版本控制	`rules/management-versioning.md`	JSON 备份格式、嵌入向量重新生成、灾难恢复
存储	`rules/management-storage.md`	备份策略、URL 契约、数据完整性检查
CI 集成	`rules/management-ci.md`	GitHub Actions 自动化、部署前验证、每周备份

黄金数据集的质量评分、漂移检测和回归测试。

规则	文件	关键模式
质量	`rules/validation-quality.md`	模式验证、内容质量、引用完整性
漂移	`rules/validation-drift.md`	重复项检测、语义相似性、覆盖缺口分析
回归	`rules/validation-regression.md`	难度分布、预提交钩子、完整数据集验证

向黄金数据集添加新文档的结构化工作流。

规则	文件	关键模式
添加文档	`rules/curation-add-workflow.md`	9 阶段整理、并行质量分析、偏见检测

from app.shared.services.embeddings import embed_text

async def validate_before_add(document: dict, source_url_map: dict) -> dict:
    """黄金数据集条目的添加前验证。"""
    errors = []

    # 1. URL 契约检查
    if "placeholder" in document.get("source_url", ""):
        errors.append("URL 必须是规范的，不能是占位符")

    # 2. 内容质量
    if len(document.get("title", "")) < 10:
        errors.append("标题过短（至少 10 个字符）")

    # 3. 标签要求
    if len(document.get("tags", [])) < 2:
        errors.append("至少需要 2 个领域标签")

    return {"valid": len(errors) == 0, "errors": errors}

决策	建议
备份格式	JSON（版本控制、可移植）
嵌入向量存储	排除在备份之外（恢复时重新生成）
质量阈值	质量分数 >= 0.70 方可纳入
置信度阈值	>= 0.65 可自动纳入
重复项阈值	相似度 >= 0.90 则阻止，>= 0.85 则警告
每个条目标签最小值	2 个领域标签
每个文档测试查询最小值	3 个
难度平衡	简单 3，容易 3，中等 5，困难 3（最小值）
CI 频率	每周自动备份（UTC 时间周日凌晨 2 点）

使用占位符 URL 而非规范的源 URL
恢复后跳过嵌入向量重新生成
未验证文档与查询之间的引用完整性
过度索引文章（忽视教程、研究论文）
测试查询中缺少难度分布平衡
备份/恢复操作后未运行验证
在生产环境而非预发布环境测试恢复流程
提交 SQL 转储而非 JSON（对版本控制不友好）

查看 test-cases.json 了解所有类别的 9 个测试用例。

ork:rag-retrieval - 使用黄金数据集进行检索评估
langfuse-observability - 整理工作流的追踪模式
ork:testing-unit - 单元测试模式和策略
ai-native-development - 用于恢复的嵌入向量生成

关键词： 黄金数据集、数据整理、内容收集、标注、质量标准

解决的问题：

为黄金数据集分类文档内容类型
运行多智能体质量分析流程
为新文档生成测试查询

关键词： 黄金数据集、备份、恢复、版本控制、灾难恢复

解决的问题：

使用 JSON 备份和恢复黄金数据集
恢复后重新生成嵌入向量
使用 CI/CD 自动化备份

关键词： 黄金数据集、验证、模式、重复项检测、质量指标

解决的问题：

根据文档模式验证条目
检测重复或近似重复的条目
分析数据集覆盖范围和分布缺口

2026 年 2 月 14 日

🇺🇸English

Golden Dataset

Comprehensive patterns for building, managing, and validating golden datasets for AI/ML evaluation. Each category has individual rule files in rules/ loaded on-demand.

Quick Reference

Category	Rules	Impact	When to Use
Curation	3	HIGH	Content collection, annotation pipelines, diversity analysis
Management	3	HIGH	Versioning, backup/restore, CI/CD automation
Validation	3	CRITICAL	Quality scoring, drift detection, regression testing
Add Workflow	1	HIGH	9-phase curation, quality scoring, bias detection, silver-to-gold

Total: 10 rules across 4 categories

Curation

Content collection, multi-agent annotation, and diversity analysis for golden datasets.

Rule	File	Key Pattern
Collection	`rules/curation-collection.md`	Content type classification, quality thresholds, duplicate prevention
Annotation	`rules/curation-annotation.md`	Multi-agent pipeline, consensus aggregation, Langfuse tracing
Diversity	`rules/curation-diversity.md`	Difficulty stratification, domain coverage, balance guidelines

Management

Versioning, storage, and CI/CD automation for golden datasets.

Rule	File	Key Pattern
Versioning	`rules/management-versioning.md`	JSON backup format, embedding regeneration, disaster recovery
Storage	`rules/management-storage.md`	Backup strategies, URL contract, data integrity checks
CI Integration	`rules/management-ci.md`	GitHub Actions automation, pre-deployment validation, weekly backups

Validation

Quality scoring, drift detection, and regression testing for golden datasets.

Rule	File	Key Pattern
Quality	`rules/validation-quality.md`	Schema validation, content quality, referential integrity
Drift	`rules/validation-drift.md`	Duplicate detection, semantic similarity, coverage gap analysis
Regression	`rules/validation-regression.md`	Difficulty distribution, pre-commit hooks, full dataset validation

Add Workflow

Structured workflow for adding new documents to the golden dataset.

Rule	File	Key Pattern
Add Document	`rules/curation-add-workflow.md`	9-phase curation, parallel quality analysis, bias detection

Quick Start Example

from app.shared.services.embeddings import embed_text

async def validate_before_add(document: dict, source_url_map: dict) -> dict:
    """Pre-addition validation for golden dataset entries."""
    errors = []

    # 1. URL contract check
    if "placeholder" in document.get("source_url", ""):
        errors.append("URL must be canonical, not a placeholder")

    # 2. Content quality
    if len(document.get("title", "")) < 10:
        errors.append("Title too short (min 10 chars)")

    # 3. Tag requirements
    if len(document.get("tags", [])) < 2:
        errors.append("At least 2 domain tags required")

    return {"valid": len(errors) == 0, "errors": errors}

Key Decisions

Decision	Recommendation
Backup format	JSON (version controlled, portable)
Embedding storage	Exclude from backup (regenerate on restore)
Quality threshold	>= 0.70 quality score for inclusion
Confidence threshold	>= 0.65 for auto-include
Duplicate threshold	>= 0.90 similarity blocks, >= 0.85 warns
Min tags per entry	2 domain tags
Min test queries	3 per document
Difficulty balance	Trivial 3, Easy 3, Medium 5, Hard 3 minimum
CI frequency	Weekly automated backup (Sunday 2am UTC)

Common Mistakes

Using placeholder URLs instead of canonical source URLs
Skipping embedding regeneration after restore
Not validating referential integrity between documents and queries
Over-indexing on articles (neglecting tutorials, research papers)
Missing difficulty distribution balance in test queries
Not running verification after backup/restore operations
Testing restore procedures in production instead of staging
Committing SQL dumps instead of JSON (not version-control friendly)

Evaluations

See test-cases.json for 9 test cases across all categories.

Related Skills

ork:rag-retrieval - Retrieval evaluation using golden dataset
langfuse-observability - Tracing patterns for curation workflows
ork:testing-unit - Unit testing patterns and strategies
ai-native-development - Embedding generation for restore

Capability Details

curation

Keywords: golden dataset, curation, content collection, annotation, quality criteria

Solves:

Classify document content types for golden dataset
Run multi-agent quality analysis pipelines
Generate test queries for new documents

management

Keywords: golden dataset, backup, restore, versioning, disaster recovery

Solves:

Backup and restore golden datasets with JSON
Regenerate embeddings after restore
Automate backups with CI/CD

validation

Keywords: golden dataset, validation, schema, duplicate detection, quality metrics

Solves:

Validate entries against document schema
Detect duplicate or near-duplicate entries
Analyze dataset coverage and distribution gaps

Weekly Installs

Repository

yonatangross/orchestkit

GitHub Stars

132

First Seen

Feb 14, 2026

Security Audits

Gen Agent Trust HubPass SocketPass SnykWarn

Installed on

gemini-cli66

opencode66

codex65

github-copilot65

cursor64

cline60

超能力技能使用指南：AI助手技能调用优先级与工作流程详解

53,700 周安装

AI/ML黄金数据集构建与管理框架：数据整理、验证与自动化工作流

🇨🇳中文介绍

黄金数据集

快速参考

数据整理

相关 Skills

数据管理

数据验证

添加工作流

快速开始示例

关键决策

常见错误

评估

相关技能

能力详情

数据整理

数据管理

数据验证

🇺🇸English

Golden Dataset

Quick Reference

Curation

Management

Validation

Add Workflow

Quick Start Example

Key Decisions

Common Mistakes

Evaluations

Related Skills

Capability Details

curation

management

validation

最新 Skills

收集	`rules/curation-collection.md`	内容类型分类、质量阈值、重复项预防
标注	`rules/curation-annotation.md`	多智能体流程、共识聚合、Langfuse 追踪
多样性	`rules/curation-diversity.md`	难度分层、领域覆盖、平衡指南