重要前提
安装AI Skills的关键前提是:必须科学上网,且开启TUN模式,这一点至关重要,直接决定安装能否顺利完成,在此郑重提醒三遍:科学上网,科学上网,科学上网。查看完整安装教程 →
data-pipeline-engineer by erichowens/some_claude_skills
npx skills add https://github.com/erichowens/some_claude_skills --skill data-pipeline-engineer专注于 ETL/ELT 管道、流式架构、数据仓库和现代数据栈实施的专家级数据工程师。
| 能力 | 技术栈 | 关键模式 |
|---|---|---|
| 批处理 | Spark, dbt, Databricks | 增量处理、分区、Delta/Iceberg |
| 流处理 | Kafka, Flink, Spark Streaming | 水印、精确一次处理、窗口 |
| 编排 | Airflow, Dagster, Prefect | DAG 设计、传感器、任务组 |
| 数据建模 |
广告位招租
在这里展示您的产品或服务
触达数万 AI 开发者,精准高效
| dbt, SQL |
| Kimball, Data Vault, SCD |
| 数据质量 | Great Expectations, dbt 测试 | 验证套件、新鲜度 |
青铜层(原始数据) → 精确的源数据副本,读时模式,按摄取时间分区
↓ 清洗、去重
白银层(清洗后数据) → 已验证、标准化、应用业务逻辑
↓ 聚合、丰富
黄金层(业务数据) → 维度模型、聚合数据,准备就绪用于 BI/ML
完整实现示例位于 ./references/ 目录:
| 文件 | 描述 |
|---|---|
dbt-project-structure.md | 包含暂存层、中间层、数据集市层的完整 dbt 项目布局 |
airflow-dag.py | 包含传感器、任务组、质量检查的生产级 DAG |
spark-streaming.py | 带窗口功能的 Kafka 到 Delta 处理器 |
great-expectations-suite.json | 全面的数据质量期望套件 |
症状 : 每次运行都截断并重建整个表 修复 : 使用带 is_incremental() 的增量模型,按日期分区
症状 : 上游添加/删除列时管道中断 修复 : 明确的源数据契约,在暂存层仅选择需要的列
症状 : 一个包含 200 个任务的 DAG 运行 8 小时 修复 : 领域特定的 DAG,使用 ExternalTaskSensor 处理依赖关系
症状 : 错误数据在检测前到达生产环境 修复 : 在每一层使用 Great Expectations 或 dbt 测试,失败时阻塞
症状 : 原始数据在未保留原始副本的情况下被转换 修复 : 始终先将原始数据落地到青铜层,使转换可复现
症状 : 需要手动更新日期过滤器 修复 : 使用 Airflow 模板(例如 ds 变量)或动态日期函数
症状 : 无界状态增长,长时间运行作业内存溢出 修复 : 添加 withWatermark() 以处理延迟到达的数据
症状 : 瞬时故障导致 DAG 失败 修复 : retries=3, retry_exponential_backoff=True, max_retry_delay
症状 : 无人知晓数据来源或使用者 修复 : dbt 文档、数据目录集成、列级血缘
症状 : 由利益相关者而非工程师发现错误 修复 : dbt --target dev、样本数据集、模型的 CI/CD
管道设计:
数据质量:
编排:
运维:
运行 ./scripts/validate-pipeline.sh 以检查:
每周安装次数
59
代码仓库
GitHub 星标数
78
首次出现
2026年1月24日
安全审计
已安装于
opencode52
cursor51
codex51
gemini-cli51
claude-code47
github-copilot46
Expert data engineer specializing in ETL/ELT pipelines, streaming architectures, data warehousing, and modern data stack implementation.
| Capability | Technologies | Key Patterns |
|---|---|---|
| Batch Processing | Spark, dbt, Databricks | Incremental, partitioning, Delta/Iceberg |
| Stream Processing | Kafka, Flink, Spark Streaming | Watermarks, exactly-once, windowing |
| Orchestration | Airflow, Dagster, Prefect | DAG design, sensors, task groups |
| Data Modeling | dbt, SQL | Kimball, Data Vault, SCD |
| Data Quality | Great Expectations, dbt tests | Validation suites, freshness |
BRONZE (Raw) → Exact source copy, schema-on-read, partitioned by ingestion
↓ Cleaning, Deduplication
SILVER (Cleansed) → Validated, standardized, business logic applied
↓ Aggregation, Enrichment
GOLD (Business) → Dimensional models, aggregates, ready for BI/ML
Full implementation examples in ./references/:
| File | Description |
|---|---|
dbt-project-structure.md | Complete dbt layout with staging, intermediate, marts |
airflow-dag.py | Production DAG with sensors, task groups, quality checks |
spark-streaming.py | Kafka-to-Delta processor with windowing |
great-expectations-suite.json | Comprehensive data quality expectation suite |
Symptom : Truncate and rebuild entire tables every run Fix : Use incremental models with is_incremental(), partition by date
Symptom : Pipeline breaks when upstream adds/removes columns Fix : Explicit source contracts, select only needed columns in staging
Symptom : One 200-task DAG running 8 hours Fix : Domain-specific DAGs, ExternalTaskSensor for dependencies
Symptom : Bad data reaches production before detection Fix : Great Expectations or dbt tests at each layer, block on failures
Symptom : Raw data transformed without preserving original Fix : Always land raw in Bronze first, make transformations reproducible
Symptom : Manual updates needed for date filters Fix : Use Airflow templating (e.g., ds variable) or dynamic date functions
Symptom : Unbounded state growth, OOM in long-running jobs Fix : Add withWatermark() to handle late-arriving data
Symptom : Transient failures cause DAG failures Fix : retries=3, retry_exponential_backoff=True, max_retry_delay
Symptom : No one knows where data comes from or who uses it Fix : dbt docs, data catalog integration, column-level lineage
Symptom : Bugs discovered by stakeholders, not engineers Fix : dbt --target dev, sample datasets, CI/CD for models
Pipeline Design:
Data Quality:
Orchestration:
Operations:
Run ./scripts/validate-pipeline.sh to check:
Weekly Installs
59
Repository
GitHub Stars
78
First Seen
Jan 24, 2026
Security Audits
Gen Agent Trust HubPassSocketPassSnykPass
Installed on
opencode52
cursor51
codex51
gemini-cli51
claude-code47
github-copilot46
Azure 升级评估与自动化工具 - 轻松迁移 Functions 计划、托管层级和 SKU
127,000 周安装