数据工程师技能指南：构建可扩展数据管道、ETL/ELT工作流与数据湖仓

data-engineer by 404kidwiz/claude-supercode-skills

84 周安装量

63 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/404kidwiz/claude-supercode-skills --skill data-engineer

云服务数据分析数据处理

🇨🇳中文介绍

数据工程师

目的

提供专业的数据工程能力，用于构建可扩展的数据管道、ETL/ELT 工作流、数据湖和数据仓库。专注于分布式数据处理、流处理、数据质量和现代数据栈技术（Airflow, dbt, Spark, Kafka），并强调可靠性和成本优化。

使用时机

设计从数据源到消费层的端到端数据管道
实施包含错误处理和数据质量检查的 ETL/ELT 工作流
构建具有优化存储和查询能力的数据湖或数据仓库
建立实时流处理系统（Kafka, Flink, Kinesis）
优化数据基础设施成本（存储分层，计算效率）
实施数据治理和合规性（GDPR，数据血缘）
将遗留数据系统迁移到现代数据平台

快速开始

在以下情况下调用此技能：

设计从数据源到消费层的端到端数据管道
实施包含错误处理和数据质量检查的 ETL/ELT 工作流
构建具有优化存储和查询能力的数据湖或数据仓库
建立实时流处理系统（Kafka, Flink, Kinesis）
优化数据基础设施成本（存储分层，计算效率）
实施数据治理和合规性（GDPR，数据血缘）

在以下情况下请勿调用：

仅需 SQL 查询优化（请使用 database-optimizer）
机器学习模型开发（请使用 ml-engineer 或 data-scientist）
简单的数据分析或可视化（请使用 data-analyst）
数据库管理任务（请使用 database-administrator）
无需数据转换的 API 集成（请使用 backend-developer）

决策框架

管道架构选择

├─ 批处理？
│   ├─ 每日/每小时调度 → Airflow + dbt
│   │   优点：成熟的生态系统，基于 SQL 的转换
│   │   成本：低-中
│   │
│   ├─ 大规模（TB+）→ Spark (EMR/Databricks)
│   │   优点：分布式处理，可处理大规模数据
│   │   成本：中-高（计算密集型）
│   │
│   └─ 简单转换 → dbt Cloud 或 Fivetran
│       优点：托管服务，维护成本低
│       成本：中（SaaS 定价）
│
├─ 流处理？
│   ├─ 事件流 → Kafka + Flink
│   │   优点：低延迟，精确一次语义
│   │   成本：高（持续运行的基础设施）
│   │
│   ├─ AWS 原生服务 → Kinesis + Lambda
│   │   优点：无服务器，自动扩缩容
│   │   成本：可变（按使用付费）
│   │
│   └─ 简单的变更数据捕获 → Debezium + Kafka Connect
│       优点：数据库变更捕获
│       成本：中
│
└─ 混合（批处理 + 流处理）？
    └─ Lambda 架构 或 Kappa 架构
        Lambda：分离的批处理层/速度层
        Kappa：单一的流优先方法

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

使用场景	技术	优点	缺点
结构化分析	Snowflake/BigQuery	SQL，快速查询	大规模时成本高
半结构化	Delta Lake/Iceberg	ACID，模式演进	复杂性高
原始存储	S3/GCS	廉价，持久	无查询引擎
实时	Redis/DynamoDB	低延迟	分析能力有限
时间序列	TimescaleDB/InfluxDB	针对时间数据优化	特定使用场景

因素	ETL（先转换）	ELT（先加载）
数据量	小-中	大（TB+）
转换	复杂，加载前转换	基于 SQL，在数据仓库内转换
延迟	较高	较低
成本	加载前计算	数据仓库计算
最适合	遗留系统	现代云数据仓库

🇺🇸English

Data Engineer

Purpose

Provides expert data engineering capabilities for building scalable data pipelines, ETL/ELT workflows, data lakes, and data warehouses. Specializes in distributed data processing, stream processing, data quality, and modern data stack technologies (Airflow, dbt, Spark, Kafka) with focus on reliability and cost optimization.

When to Use

Designing end-to-end data pipelines from source to consumption layer
Implementing ETL/ELT workflows with error handling and data quality checks
Building data lakes or data warehouses with optimal storage and querying
Setting up real-time stream processing (Kafka, Flink, Kinesis)
Optimizing data infrastructure costs (storage tiering, compute efficiency)
Implementing data governance and compliance (GDPR, data lineage)
Migrating legacy data systems to modern data platforms

Quick Start

Invoke this skill when:

Designing end-to-end data pipelines from source to consumption layer
Implementing ETL/ELT workflows with error handling and data quality checks
Building data lakes or data warehouses with optimal storage and querying
Setting up real-time stream processing (Kafka, Flink, Kinesis)
Optimizing data infrastructure costs (storage tiering, compute efficiency)
Implementing data governance and compliance (GDPR, data lineage)

Do NOT invoke when:

Only SQL query optimization needed (use database-optimizer instead)
Machine learning model development (use ml-engineer or data-scientist)
Simple data analysis or visualization (use data-analyst)
Database administration tasks (use database-administrator)
API integration without data transformation (use backend-developer)

Decision Framework

Pipeline Architecture Selection

├─ Batch Processing?
│   ├─ Daily/hourly schedules → Airflow + dbt
│   │   Pros: Mature ecosystem, SQL-based transforms
│   │   Cost: Low-medium
│   │
│   ├─ Large-scale (TB+) → Spark (EMR/Databricks)
│   │   Pros: Distributed processing, handles scale
│   │   Cost: Medium-high (compute-intensive)
│   │
│   └─ Simple transforms → dbt Cloud or Fivetran
│       Pros: Managed, low maintenance
│       Cost: Medium (SaaS pricing)
│
├─ Stream Processing?
│   ├─ Event streaming → Kafka + Flink
│   │   Pros: Low latency, exactly-once semantics
│   │   Cost: High (always-on infrastructure)
│   │
│   ├─ AWS native → Kinesis + Lambda
│   │   Pros: Serverless, auto-scaling
│   │   Cost: Variable (pay per use)
│   │
│   └─ Simple CDC → Debezium + Kafka Connect
│       Pros: Database change capture
│       Cost: Medium
│
└─ Hybrid (Batch + Stream)?
    └─ Lambda Architecture or Kappa Architecture
        Lambda: Separate batch/speed layers
        Kappa: Single stream-first approach

Data Storage Selection

Use Case	Technology	Pros	Cons
Structured analytics	Snowflake/BigQuery	SQL, fast queries	Cost at scale
Semi-structured	Delta Lake/Iceberg	ACID, schema evolution	Complexity
Raw storage	S3/GCS	Cheap, durable	No query engine
Real-time	Redis/DynamoDB	Low latency	Limited analytics
Time-series	TimescaleDB/InfluxDB	Optimized for time data	Specific use case

ETL vs ELT Decision

Factor	ETL (Transform First)	ELT (Load First)
Data volume	Small-medium	Large (TB+)
Transformation	Complex, pre-load	SQL-based, in-warehouse
Latency	Higher	Lower
Cost	Compute before load	Warehouse compute
Best for	Legacy systems	Modern cloud DW

Core Patterns

Pattern 1: Idempotent Partition Overwrite

Use case: Safely re-run batch jobs without creating duplicates.

# PySpark example: Overwrite partition based on execution date
def write_daily_partition(df, target_table, execution_date):
    (df
     .write
     .mode("overwrite")
     .partitionBy("process_date")
     .option("partitionOverwriteMode", "dynamic")
     .format("parquet")
     .saveAsTable(target_table))

Pattern 2: Slowly Changing Dimension Type 2 (SCD2)

Use case: Track history of changes without losing past states.

-- dbt implementation of SCD2
{{ config(materialized='incremental', unique_key='user_id') }}

SELECT 
    user_id, address, email, status, updated_at,
    LEAD(updated_at, 1, '9999-12-31') OVER (
        PARTITION BY user_id ORDER BY updated_at
    ) as valid_to
FROM {{ source('raw', 'users') }}

Pattern 3: Dead Letter Queue (DLQ) for Streaming

Use case: Handle malformed messages without stopping the pipeline.

Pattern 4: Data Quality Circuit Breaker

Use case: Stop pipeline execution if data quality drops below threshold.

Quality Checklist

Data Pipeline

Idempotent (safe to retry)
Schema validation enforced
Error handling with retries
Data quality checks automated
Monitoring and alerting configured
Lineage documented

Performance

Pipeline completes within SLA (e.g., <1 hour)
Incremental loading where applicable
Partitioning strategy optimized
Query performance <30 seconds (P95)

Cost Optimization

Storage tiering implemented (hot/warm/cold)
Compute auto-scaling configured
Query cost monitoring active
Compression enabled (Parquet/ORC)

Additional Resources

Detailed Technical Reference : See REFERENCE.md
Code Examples & Patterns: See EXAMPLES.md

Weekly Installs

Repository

404kidwiz/claud…e-skills

GitHub Stars

First Seen

Jan 24, 2026

Security Audits

Gen Agent Trust HubFail SocketPass SnykWarn

Installed on

opencode48

gemini-cli44

codex44

claude-code44

cursor40

github-copilot38

数据工程师技能指南：构建可扩展数据管道、ETL/ELT工作流与数据湖仓

🇨🇳中文介绍

数据工程师

目的

使用时机

快速开始

决策框架

管道架构选择

相关 Skills

数据存储选择

ETL 与 ELT 决策

核心模式

模式 1：幂等分区覆写

模式 2：缓慢变化维度类型 2

模式 3：用于流处理的死信队列

模式 4：数据质量断路器

质量检查清单

数据管道

性能

成本优化

附加资源