data-pipeline-architect by 4444j99/a-i--skills
npx skills add https://github.com/4444j99/a-i--skills --skill data-pipeline-architect此技能为设计稳健、可扩展的数据管道提供指导,确保数据可靠地从源头传输到目的地。
开始管道设计前,需收集:
批处理管道 - 用于周期性批量处理:
流处理管道 - 用于实时性要求:
混合方法 - Lambda 或 Kappa 架构:
ETL(加载前转换):
广告位招租
在这里展示您的产品或服务
触达数万 AI 开发者,精准高效
ELT(加载后转换):
提取层:
转换层:
加载层:
┌─────────────────────────────────────────────────────────┐
│ 管道执行 │
├─────────────────────────────────────────────────────────┤
│ ┌─────────┐ ┌───────────┐ ┌──────────┐ │
│ │ 提取 │───▶│ 转换 │───▶│ 加载 │ │
│ └────┬────┘ └─────┬─────┘ └────┬─────┘ │
│ │ │ │ │
│ ▼ ▼ ▼ │
│ ┌─────────┐ ┌───────────┐ ┌──────────┐ │
│ │ 重试 │ │ 死信队列 │ │ 回滚 │ │
│ │ 退避策略│ │ │ │ 检查点 │ │
│ └─────────┘ └───────────┘ └──────────┘ │
└─────────────────────────────────────────────────────────┘
在每个阶段实施检查:
| 阶段 | 检查类型 | 示例 |
|---|---|---|
| 提取 | 完整性 | 行数与源系统匹配 |
| 提取 | 新鲜度 | 数据时间戳在 SLA 范围内 |
| 转换 | 有效性 | 值在预期范围内 |
| 转换 | 唯一性 | 主键唯一 |
| 加载 | 对账 | 目标数据与源数据总量匹配 |
| 加载 | 完整性 | 外键有效 |
需要追踪的关键指标:
需告警的情况:
-- 基于时间戳的增量
SELECT * FROM source
WHERE updated_at > {{ last_run_timestamp }}
-- 基于 CDC(变更数据捕获)
-- 从事务日志中捕获插入、更新、删除操作
-- 删除 + 插入模式
DELETE FROM target WHERE date_partition = '2024-01-15';
INSERT INTO target SELECT * FROM staging WHERE date_partition = '2024-01-15';
-- 合并/更新插入模式
MERGE INTO target t
USING staging s ON t.id = s.id
WHEN MATCHED THEN UPDATE SET ...
WHEN NOT MATCHED THEN INSERT ...
references/orchestration-patterns.md - Airflow、Dagster、Prefect 模式references/data-quality-checks.md - 验证框架与规则references/pipeline-templates.md - 常见管道架构每周安装数
1
代码仓库
GitHub 星标数
2
首次出现
1 天前
安全审计
安装于
zencoder1
amp1
cline1
openclaw1
opencode1
cursor1
This skill provides guidance for designing robust, scalable data pipelines that move data reliably from sources to destinations.
To begin pipeline design, gather:
Batch Pipelines - For periodic bulk processing:
Streaming Pipelines - For real-time requirements:
Hybrid Approaches - Lambda or Kappa architecture:
ETL (Transform before Load) :
ELT (Transform after Load) :
Extraction Layer :
Transformation Layer :
Loading Layer :
┌─────────────────────────────────────────────────────────┐
│ Pipeline Execution │
├─────────────────────────────────────────────────────────┤
│ ┌─────────┐ ┌───────────┐ ┌──────────┐ │
│ │ Extract │───▶│ Transform │───▶│ Load │ │
│ └────┬────┘ └─────┬─────┘ └────┬─────┘ │
│ │ │ │ │
│ ▼ ▼ ▼ │
│ ┌─────────┐ ┌───────────┐ ┌──────────┐ │
│ │ Retry │ │ Dead Letter│ │ Rollback │ │
│ │ w/Backoff│ │ Queue │ │ Checkpoint│ │
│ └─────────┘ └───────────┘ └──────────┘ │
└─────────────────────────────────────────────────────────┘
Implement checks at each stage:
| Stage | Check Type | Example |
|---|---|---|
| Extract | Completeness | Row count matches source |
| Extract | Freshness | Data timestamp within SLA |
| Transform | Validity | Values in expected ranges |
| Transform | Uniqueness | Primary keys unique |
| Load | Reconciliation | Target matches source totals |
| Load | Integrity | Foreign keys valid |
Essential metrics to track:
Alert on:
-- Timestamp-based incremental
SELECT * FROM source
WHERE updated_at > {{ last_run_timestamp }}
-- CDC-based (Change Data Capture)
-- Captures inserts, updates, deletes from transaction log
-- Delete + Insert pattern
DELETE FROM target WHERE date_partition = '2024-01-15';
INSERT INTO target SELECT * FROM staging WHERE date_partition = '2024-01-15';
-- Merge/Upsert pattern
MERGE INTO target t
USING staging s ON t.id = s.id
WHEN MATCHED THEN UPDATE SET ...
WHEN NOT MATCHED THEN INSERT ...
references/orchestration-patterns.md - Airflow, Dagster, Prefect patternsreferences/data-quality-checks.md - Validation frameworks and rulesreferences/pipeline-templates.md - Common pipeline architecturesWeekly Installs
1
Repository
GitHub Stars
2
First Seen
1 day ago
Security Audits
Gen Agent Trust HubPassSocketPassSnykPass
Installed on
zencoder1
amp1
cline1
openclaw1
opencode1
cursor1
Excel财务建模规范与xlsx文件处理指南:专业格式、零错误公式与数据分析
42,000 周安装