⚠️

重要前提

安装AI Skills的关键前提是：必须科学上网，且开启TUN模式，这一点至关重要，直接决定安装能否顺利完成，在此郑重提醒三遍：科学上网，科学上网，科学上网。查看完整安装教程 →

数据管道工程师技能指南：ETL/ELT、流式架构、数据仓库与现代化数据栈实施

data-pipeline-engineer by erichowens/some_claude_skills

63 周安装量

88 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/erichowens/some_claude_skills --skill data-pipeline-engineer

数据分析开发运维数据处理

🇨🇳中文介绍

数据管道工程师

专注于 ETL/ELT 管道、流式架构、数据仓库和现代数据栈实施的专家级数据工程师。

快速开始

识别数据源 - 数据格式、数据量、数据新鲜度要求
选择架构 - 奖章架构（青铜/白银/黄金）、Lambda 或 Kappa 架构
设计层级 - 暂存层 → 中间层 → 数据集市层（dbt 模式）
添加质量关卡 - 在每一层使用 Great Expectations 或 dbt 测试
编排 - 使用传感器和重试机制的 Airflow DAG
监控 - 数据血缘、新鲜度、异常检测

核心能力

能力	技术栈	关键模式
批处理	Spark, dbt, Databricks	增量处理、分区、Delta/Iceberg
流处理	Kafka, Flink, Spark Streaming	水印、精确一次处理、窗口
编排	Airflow, Dagster, Prefect	DAG 设计、传感器、任务组
数据建模

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

奖章架构（推荐）

青铜层（原始数据）     → 精确的源数据副本，读时模式，按摄取时间分区
      ↓ 清洗、去重
白银层（清洗后数据） → 已验证、标准化、应用业务逻辑
      ↓ 聚合、丰富
黄金层（业务数据）   → 维度模型、聚合数据，准备就绪用于 BI/ML

Lambda 与 Kappa 架构对比

Lambda : 批处理层 + 流处理层 → 合并的查询服务层（复杂但完整）
Kappa : 纯流处理层，支持重放 → 更简单但需要健壮的流处理能力

完整实现示例位于 ./references/ 目录：

文件	描述
`dbt-project-structure.md`	包含暂存层、中间层、数据集市层的完整 dbt 项目布局
`airflow-dag.py`	包含传感器、任务组、质量检查的生产级 DAG
`spark-streaming.py`	带窗口功能的 Kafka 到 Delta 处理器
`great-expectations-suite.json`	全面的数据质量期望套件

反模式（10 个关键错误）

症状 : 每次运行都截断并重建整个表修复 : 使用带 is_incremental() 的增量模型，按日期分区

2. 与源模式紧密耦合

症状 : 上游添加/删除列时管道中断修复 : 明确的源数据契约，在暂存层仅选择需要的列

症状 : 一个包含 200 个任务的 DAG 运行 8 小时修复 : 领域特定的 DAG，使用 ExternalTaskSensor 处理依赖关系

4. 缺少数据质量关卡

症状 : 错误数据在检测前到达生产环境修复 : 在每一层使用 Great Expectations 或 dbt 测试，失败时阻塞

5. 处理前未归档

症状 : 原始数据在未保留原始副本的情况下被转换修复 : 始终先将原始数据落地到青铜层，使转换可复现

6. 查询中硬编码日期

症状 : 需要手动更新日期过滤器修复 : 使用 Airflow 模板（例如 ds 变量）或动态日期函数

7. 流处理中缺少水印

症状 : 无界状态增长，长时间运行作业内存溢出修复 : 添加 withWatermark() 以处理延迟到达的数据

8. 缺少重试/退避策略

症状 : 瞬时故障导致 DAG 失败修复 : retries=3, retry_exponential_backoff=True, max_retry_delay

9. 未记录数据血缘

症状 : 无人知晓数据来源或使用者修复 : dbt 文档、数据目录集成、列级血缘

10. 仅在生产环境测试

症状 : 由利益相关者而非工程师发现错误修复 : dbt --target dev、样本数据集、模型的 CI/CD

尽可能使用增量处理
幂等转换（可安全重新运行）
定义并记录分区策略
记录回填流程

青铜层测试（模式、空值、范围）
白银层测试（业务规则、参照完整性）
黄金层测试（聚合检查、趋势监控）
数据量和分布的异常检测

配置重试和告警
定义并监控 SLA
跨 DAG 依赖使用传感器
使用 max_active_runs 防止并行冲突

记录数据血缘
常见故障的运维手册
管道健康监控仪表板
定义值班流程

运行 ./scripts/validate-pipeline.sh 以检查：

dbt 项目结构和约定
Airflow DAG 最佳实践
Spark 作业配置
数据质量设置

🇺🇸English

Data Pipeline Engineer

Expert data engineer specializing in ETL/ELT pipelines, streaming architectures, data warehousing, and modern data stack implementation.

Quick Start

Identify sources - data formats, volumes, freshness requirements
Choose architecture - Medallion (Bronze/Silver/Gold), Lambda, or Kappa
Design layers - staging → intermediate → marts (dbt pattern)
Add quality gates - Great Expectations or dbt tests at each layer
Orchestrate - Airflow DAGs with sensors and retries
Monitor - lineage, freshness, anomaly detection

Core Capabilities

Capability	Technologies	Key Patterns
Batch Processing	Spark, dbt, Databricks	Incremental, partitioning, Delta/Iceberg
Stream Processing	Kafka, Flink, Spark Streaming	Watermarks, exactly-once, windowing
Orchestration	Airflow, Dagster, Prefect	DAG design, sensors, task groups
Data Modeling	dbt, SQL	Kimball, Data Vault, SCD
Data Quality	Great Expectations, dbt tests	Validation suites, freshness

Architecture Patterns

Medallion Architecture (Recommended)

BRONZE (Raw)     → Exact source copy, schema-on-read, partitioned by ingestion
      ↓ Cleaning, Deduplication
SILVER (Cleansed) → Validated, standardized, business logic applied
      ↓ Aggregation, Enrichment
GOLD (Business)   → Dimensional models, aggregates, ready for BI/ML

Lambda vs Kappa

Lambda : Batch + Stream layers → merged serving layer (complex but complete)
Kappa : Stream-only with replay → simpler but requires robust streaming

Reference Examples

Full implementation examples in ./references/:

File	Description
`dbt-project-structure.md`	Complete dbt layout with staging, intermediate, marts
`airflow-dag.py`	Production DAG with sensors, task groups, quality checks
`spark-streaming.py`	Kafka-to-Delta processor with windowing
`great-expectations-suite.json`	Comprehensive data quality expectation suite

Anti-Patterns (10 Critical Mistakes)

1. Full Table Refreshes

Symptom : Truncate and rebuild entire tables every run Fix : Use incremental models with is_incremental(), partition by date

2. Tight Coupling to Source Schemas

Symptom : Pipeline breaks when upstream adds/removes columns Fix : Explicit source contracts, select only needed columns in staging

3. Monolithic DAGs

Symptom : One 200-task DAG running 8 hours Fix : Domain-specific DAGs, ExternalTaskSensor for dependencies

4. No Data Quality Gates

Symptom : Bad data reaches production before detection Fix : Great Expectations or dbt tests at each layer, block on failures

5. Processing Before Archiving

Symptom : Raw data transformed without preserving original Fix : Always land raw in Bronze first, make transformations reproducible

6. Hardcoded Dates in Queries

Symptom : Manual updates needed for date filters Fix : Use Airflow templating (e.g., ds variable) or dynamic date functions

7. Missing Watermarks in Streaming

Symptom : Unbounded state growth, OOM in long-running jobs Fix : Add withWatermark() to handle late-arriving data

8. No Retry/Backoff Strategy

Symptom : Transient failures cause DAG failures Fix : retries=3, retry_exponential_backoff=True, max_retry_delay

9. Undocumented Data Lineage

Symptom : No one knows where data comes from or who uses it Fix : dbt docs, data catalog integration, column-level lineage

10. Testing Only in Production

Symptom : Bugs discovered by stakeholders, not engineers Fix : dbt --target dev, sample datasets, CI/CD for models

Quality Checklist

Pipeline Design:

Incremental processing where possible
Idempotent transformations (re-runnable safely)
Partitioning strategy defined and documented
Backfill procedures documented

Data Quality:

Tests at Bronze layer (schema, nulls, ranges)
Tests at Silver layer (business rules, referential integrity)
Tests at Gold layer (aggregation checks, trend monitoring)
Anomaly detection for volumes and distributions

Orchestration:

Retry and alerting configured
SLAs defined and monitored
Cross-DAG dependencies use sensors
max_active_runs prevents parallel conflicts

Operations:

Data lineage documented
Runbooks for common failures
Monitoring dashboards for pipeline health
On-call procedures defined

Validation Script

Run ./scripts/validate-pipeline.sh to check:

dbt project structure and conventions
Airflow DAG best practices
Spark job configurations
Data quality setup

External Resources

Weekly Installs

Repository

erichowens/some…e_skills

GitHub Stars

First Seen

Jan 24, 2026

Security Audits

Gen Agent Trust HubPass SocketPass SnykPass

Installed on

opencode52

cursor51

codex51

gemini-cli51

claude-code47

github-copilot46

Azure 升级评估与自动化工具 - 轻松迁移 Functions 计划、托管层级和 SKU

127,000 周安装