虚拟数据集生成器 - 自定义测试数据工具，支持CSV/JSON/SQL/Python脚本输出

dummy-dataset by phuryn/pm-skills

234 周安装量

8,100 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/phuryn/pm-skills --skill dummy-dataset

开发数据处理测试

🇨🇳中文介绍

虚拟数据集生成

生成用于测试的真实虚拟数据集，支持可自定义的列、约束条件和输出格式（CSV、JSON、SQL、Python 脚本）。创建可执行脚本或直接数据文件，便于立即使用。

使用场景： 创建测试数据、生成样本数据集、为开发构建真实的模拟数据，或填充测试环境。

参数：

$PRODUCT：产品或系统名称
$DATASET_TYPE：数据类型（例如：客户反馈、交易记录、用户资料）
$ROWS：要生成的行数（默认值：100）
$COLUMNS：要包含的特定列或字段
$FORMAT：输出格式（CSV、JSON、SQL、Python 脚本）
$CONSTRAINTS：额外的约束条件或业务规则

分步流程

确定数据集类型 - 理解数据领域
定义列规范 - 名称、数据类型和值范围
- 需要多少样本记录

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

相关 Skills

find-skills 技能搜索工具 - Vercel Labs 开源智能体技能包管理器

776,000 周安装

Vercel React 最佳实践指南 | 58条Next.js性能优化规则与代码重构

261,300 周安装

Vercel Web界面规范检查工具 - 自动检测代码是否符合Web设计指南

210,800 周安装

agent-browser 浏览器自动化工具 - Vercel Labs 命令行网页操作与测试

140,500 周安装

import csv
import json
from datetime import datetime, timedelta
import random

# Configuration
ROWS = $ROWS
FILENAME = "$DATASET_TYPE.csv"

# Column definitions with realistic value generators
columns = {
    "id": "auto-increment",
    "name": "first_last_name",
    "email": "email",
    "created_at": "timestamp",
    # Add more columns...
}

def generate_dataset():
    """Generate realistic dummy dataset"""
    data = []
    for i in range(1, ROWS + 1):
        record = {
            "id": f"U{i:06d}",
            # Generate values based on column definitions
        }
        data.append(record)
    return data

def save_as_csv(data, filename):
    """Save dataset as CSV"""
    with open(filename, 'w', newline='') as f:
        writer = csv.DictWriter(f, fieldnames=data[0].keys())
        writer.writeheader()
        writer.writerows(data)

if __name__ == "__main__":
    dataset = generate_dataset()
    save_as_csv(dataset, FILENAME)
    print(f"Generated {len(dataset)} records in {FILENAME}")

🇺🇸English

Dummy Dataset Generation

Generate realistic dummy datasets for testing with customizable columns, constraints, and output formats (CSV, JSON, SQL, Python script). Creates executable scripts or direct data files for immediate use.

Use when: Creating test data, generating sample datasets, building realistic mock data for development, or populating test environments.

Arguments:

$PRODUCT: The product or system name
$DATASET_TYPE: Type of data (e.g., customer feedback, transactions, user profiles)
$ROWS: Number of rows to generate (default: 100)
$COLUMNS: Specific columns or fields to include
$FORMAT: Output format (CSV, JSON, SQL, Python script)
$CONSTRAINTS: Additional constraints or business rules

Step-by-Step Process

Identify dataset type - Understand the data domain
Define column specifications - Names, data types, and value ranges
Determine row count - How many sample records needed
Select output format - CSV, JSON, SQL INSERT, or Python script
Apply realistic patterns - Ensure data looks authentic and valid
Add business constraints - Respect business logic and relationships
Generate or script data - Create executable output
Validate output - Ensure data quality and completeness

Template: Python Script Output

import csv
import json
from datetime import datetime, timedelta
import random

# Configuration
ROWS = $ROWS
FILENAME = "$DATASET_TYPE.csv"

# Column definitions with realistic value generators
columns = {
    "id": "auto-increment",
    "name": "first_last_name",
    "email": "email",
    "created_at": "timestamp",
    # Add more columns...
}

def generate_dataset():
    """Generate realistic dummy dataset"""
    data = []
    for i in range(1, ROWS + 1):
        record = {
            "id": f"U{i:06d}",
            # Generate values based on column definitions
        }
        data.append(record)
    return data

def save_as_csv(data, filename):
    """Save dataset as CSV"""
    with open(filename, 'w', newline='') as f:
        writer = csv.DictWriter(f, fieldnames=data[0].keys())
        writer.writeheader()
        writer.writerows(data)

if __name__ == "__main__":
    dataset = generate_dataset()
    save_as_csv(dataset, FILENAME)
    print(f"Generated {len(dataset)} records in {FILENAME}")

Example Dataset Specification

Dataset Type: Customer Feedback

Columns:

feedback_id (auto-increment, U001, U002...)
customer_name (realistic names)
email (valid email format)
feedback_date (dates last 90 days)
rating (1-5 stars)
category (Bug, Feature Request, Complaint, Praise)
text (realistic feedback)
product (electronics, clothing, home)

Constraints:

Ratings skewed: 40% 5-star, 30% 4-star, 20% 3-star, 10% 1-2 star
Bug category only with ratings 1-3
Feature requests only with ratings 3-5
Email domains realistic (gmail, yahoo, company.com)

Output Deliverables

Ready-to-execute Python script OR direct data file
CSV file with proper headers and formatting
JSON file with valid structure and types
SQL INSERT statements for database population
Data validation and constraint compliance
Realistic, business-appropriate values
Documentation of data generation logic
Quick-start instructions for using the dataset

Output Formats

CSV: Flat tabular format, easy to import into spreadsheets and databases

JSON: Nested structure, ideal for APIs and NoSQL databases

SQL: INSERT statements, directly executable on relational databases

Python Script: Executable generator for custom or large datasets

Weekly Installs

234

Repository

phuryn/pm-skills

GitHub Stars

8.1K

First Seen

Mar 4, 2026

Security Audits

Gen Agent Trust HubPass SocketPass SnykPass

Installed on

codex222

opencode220

github-copilot219

cursor219

gemini-cli219

kimi-cli218