data-engineer by 404kidwiz/claude-supercode-skills
npx skills add https://github.com/404kidwiz/claude-supercode-skills --skill data-engineer提供专业的数据工程能力,用于构建可扩展的数据管道、ETL/ELT 工作流、数据湖和数据仓库。专注于分布式数据处理、流处理、数据质量和现代数据栈技术(Airflow, dbt, Spark, Kafka),并强调可靠性和成本优化。
在以下情况下调用此技能:
在以下情况下请勿调用:
├─ 批处理?
│ ├─ 每日/每小时调度 → Airflow + dbt
│ │ 优点:成熟的生态系统,基于 SQL 的转换
│ │ 成本:低-中
│ │
│ ├─ 大规模(TB+)→ Spark (EMR/Databricks)
│ │ 优点:分布式处理,可处理大规模数据
│ │ 成本:中-高(计算密集型)
│ │
│ └─ 简单转换 → dbt Cloud 或 Fivetran
│ 优点:托管服务,维护成本低
│ 成本:中(SaaS 定价)
│
├─ 流处理?
│ ├─ 事件流 → Kafka + Flink
│ │ 优点:低延迟,精确一次语义
│ │ 成本:高(持续运行的基础设施)
│ │
│ ├─ AWS 原生服务 → Kinesis + Lambda
│ │ 优点:无服务器,自动扩缩容
│ │ 成本:可变(按使用付费)
│ │
│ └─ 简单的变更数据捕获 → Debezium + Kafka Connect
│ 优点:数据库变更捕获
│ 成本:中
│
└─ 混合(批处理 + 流处理)?
└─ Lambda 架构 或 Kappa 架构
Lambda:分离的批处理层/速度层
Kappa:单一的流优先方法
广告位招租
在这里展示您的产品或服务
触达数万 AI 开发者,精准高效
| 使用场景 | 技术 | 优点 | 缺点 |
|---|---|---|---|
| 结构化分析 | Snowflake/BigQuery | SQL,快速查询 | 大规模时成本高 |
| 半结构化 | Delta Lake/Iceberg | ACID,模式演进 | 复杂性高 |
| 原始存储 | S3/GCS | 廉价,持久 | 无查询引擎 |
| 实时 | Redis/DynamoDB | 低延迟 | 分析能力有限 |
| 时间序列 | TimescaleDB/InfluxDB | 针对时间数据优化 | 特定使用场景 |
| 因素 | ETL(先转换) | ELT(先加载) |
|---|---|---|
| 数据量 | 小-中 | 大(TB+) |
| 转换 | 复杂,加载前转换 | 基于 SQL,在数据仓库内转换 |
| 延迟 | 较高 | 较低 |
| 成本 | 加载前计算 | 数据仓库计算 |
| 最适合 | 遗留系统 | 现代云数据仓库 |
使用场景: 安全地重新运行批处理作业而不会产生重复数据。
# PySpark 示例:基于执行日期覆写分区
def write_daily_partition(df, target_table, execution_date):
(df
.write
.mode("overwrite")
.partitionBy("process_date")
.option("partitionOverwriteMode", "dynamic")
.format("parquet")
.saveAsTable(target_table))
使用场景: 跟踪变更历史而不丢失过去的状态。
-- dbt 实现的 SCD2
{{ config(materialized='incremental', unique_key='user_id') }}
SELECT
user_id, address, email, status, updated_at,
LEAD(updated_at, 1, '9999-12-31') OVER (
PARTITION BY user_id ORDER BY updated_at
) as valid_to
FROM {{ source('raw', 'users') }}
使用场景: 处理格式错误的消息而不停止管道。
使用场景: 如果数据质量低于阈值,则停止管道执行。
每周安装数
59
代码仓库
GitHub 星标数
42
首次出现
2026年1月24日
安全审计
安装于
opencode48
gemini-cli44
codex44
claude-code44
cursor40
github-copilot38
Provides expert data engineering capabilities for building scalable data pipelines, ETL/ELT workflows, data lakes, and data warehouses. Specializes in distributed data processing, stream processing, data quality, and modern data stack technologies (Airflow, dbt, Spark, Kafka) with focus on reliability and cost optimization.
Invoke this skill when:
Do NOT invoke when:
├─ Batch Processing?
│ ├─ Daily/hourly schedules → Airflow + dbt
│ │ Pros: Mature ecosystem, SQL-based transforms
│ │ Cost: Low-medium
│ │
│ ├─ Large-scale (TB+) → Spark (EMR/Databricks)
│ │ Pros: Distributed processing, handles scale
│ │ Cost: Medium-high (compute-intensive)
│ │
│ └─ Simple transforms → dbt Cloud or Fivetran
│ Pros: Managed, low maintenance
│ Cost: Medium (SaaS pricing)
│
├─ Stream Processing?
│ ├─ Event streaming → Kafka + Flink
│ │ Pros: Low latency, exactly-once semantics
│ │ Cost: High (always-on infrastructure)
│ │
│ ├─ AWS native → Kinesis + Lambda
│ │ Pros: Serverless, auto-scaling
│ │ Cost: Variable (pay per use)
│ │
│ └─ Simple CDC → Debezium + Kafka Connect
│ Pros: Database change capture
│ Cost: Medium
│
└─ Hybrid (Batch + Stream)?
└─ Lambda Architecture or Kappa Architecture
Lambda: Separate batch/speed layers
Kappa: Single stream-first approach
| Use Case | Technology | Pros | Cons |
|---|---|---|---|
| Structured analytics | Snowflake/BigQuery | SQL, fast queries | Cost at scale |
| Semi-structured | Delta Lake/Iceberg | ACID, schema evolution | Complexity |
| Raw storage | S3/GCS | Cheap, durable | No query engine |
| Real-time | Redis/DynamoDB | Low latency | Limited analytics |
| Time-series | TimescaleDB/InfluxDB | Optimized for time data | Specific use case |
| Factor | ETL (Transform First) | ELT (Load First) |
|---|---|---|
| Data volume | Small-medium | Large (TB+) |
| Transformation | Complex, pre-load | SQL-based, in-warehouse |
| Latency | Higher | Lower |
| Cost | Compute before load | Warehouse compute |
| Best for | Legacy systems | Modern cloud DW |
Use case: Safely re-run batch jobs without creating duplicates.
# PySpark example: Overwrite partition based on execution date
def write_daily_partition(df, target_table, execution_date):
(df
.write
.mode("overwrite")
.partitionBy("process_date")
.option("partitionOverwriteMode", "dynamic")
.format("parquet")
.saveAsTable(target_table))
Use case: Track history of changes without losing past states.
-- dbt implementation of SCD2
{{ config(materialized='incremental', unique_key='user_id') }}
SELECT
user_id, address, email, status, updated_at,
LEAD(updated_at, 1, '9999-12-31') OVER (
PARTITION BY user_id ORDER BY updated_at
) as valid_to
FROM {{ source('raw', 'users') }}
Use case: Handle malformed messages without stopping the pipeline.
Use case: Stop pipeline execution if data quality drops below threshold.
Weekly Installs
59
Repository
GitHub Stars
42
First Seen
Jan 24, 2026
Security Audits
Gen Agent Trust HubFailSocketPassSnykWarn
Installed on
opencode48
gemini-cli44
codex44
claude-code44
cursor40
github-copilot38
Supabase Postgres 最佳实践指南 - 8大类别性能优化规则与SQL示例
76,000 周安装
undocs - 基于 Nuxt 的零配置极简文档主题与 CLI 工具
320 周安装
GitHub与Git高级操作技能:octocat - 自动化PR管理、冲突解决与工作流优化
325 周安装
LangSmith:LLM应用开发与监控平台,提供追踪、评估和提示管理
322 周安装
Cloudflare Hyperdrive 数据库加速连接池 - PostgreSQL/MySQL 优化指南
323 周安装
品牌声调框架指南:定义、执行与跨渠道语气调整
323 周安装
json-render MCP 集成:在 Claude、ChatGPT 等 AI 客户端中嵌入交互式 UI 应用
332 周安装