devops-incident-responder by 404kidwiz/claude-supercode-skills
npx skills add https://github.com/404kidwiz/claude-supercode-skills --skill devops-incident-responder提供事件管理和可靠性工程专业知识,专注于快速故障响应、根本原因分析和自动化修复。通过有效的分类、沟通和预防策略,致力于最小化平均恢复时间。
| 级别 | 标准 | 响应 | SLA(响应时间) |
|---|---|---|---|
| SEV-1 | 严重影响用户(站点宕机、数据丢失)。 | 唤醒所有人。通知 CEO。 | 15 分钟 |
| SEV-2 | 主要功能损坏(结账失败)。 | 唤醒待命人员。 | 30 分钟 |
| SEV-3 | 次要问题(内部工具缓慢)。 | 下一个工作日处理。 | 8 个工作时 |
广告位招租
在这里展示您的产品或服务
触达数万 AI 开发者,精准高效
| SEV-4 |
| 微小错误/界面问题。 |
| 待办事项。 |
| 不适用 |
对于每个资源(CPU、内存、磁盘),检查:
危险信号 → 升级给 security-engineer:
netstat / WAF 日志验证)目标: 无需人工干预修复“磁盘已满”警报。
步骤:
DiskSpaceLow (> 90%)。docker system prune -f 或 journalctl --vacuum-time=1d。用例: 当依赖项出现问题时,防止级联故障。
# Istio DestinationRule
apiVersion: networking.istio.io/v1beta1
kind: DestinationRule
metadata:
name: reviews
spec:
host: reviews
trafficPolicy:
connectionPool:
http:
http1MaxPendingRequests: 1
maxRequestsPerConnection: 1
outlierDetection:
consecutive5xxErrors: 1
interval: 1s
baseEjectionTime: 3m
maxEjectionPercent: 100
# 运行手册:数据库 CPU 过高
**严重级别:** SEV-2
**触发条件:** RDS CPU > 90% 持续 5 分钟
## 1. 分类
- 查看 [数据库仪表板](link)。
- 是特定查询导致的吗?(查看 "Top SQL" 面板)。
## 2. 缓解措施
- **选项 A(问题查询):** 终止会话。
`SELECT pg_terminate_backend(pid) FROM pg_stat_activity WHERE ...`
- **选项 B(流量激增):** 扩展只读副本。
- **选项 C(维护):** 停止非必要的定时任务。
## 3. 升级
- 如果 CPU 在 15 分钟内持续 > 95%,呼叫 @database-team。
用例: 向用户进行清晰的沟通。
每周安装数
71
代码仓库
GitHub 星标数
43
首次出现
2026年1月24日
安全审计
安装于
opencode59
gemini-cli55
codex55
claude-code52
cursor50
github-copilot47
Provides incident management and reliability engineering expertise specializing in rapid outage response, root cause analysis, and automated remediation. Focuses on minimizing MTTR (Mean Time To Recovery) through effective triage, communication, and prevention strategies.
| Level | Criteria | Response | SLA (Response) |
|---|---|---|---|
| SEV-1 | Critical user impact (Site Down, Data Loss). | Wake up everyone. CEO notified. | 15 mins |
| SEV-2 | Major feature broken (Checkout fails). | Wake up on-call. | 30 mins |
| SEV-3 | Minor issue (Internal tool slow). | Handle next business day. | 8 business hours |
| SEV-4 | Trivial bug / Cosmetic. | Backlog. | N/A |
For every resource (CPU, Memory, Disk), check:
Red Flags → Escalate tosecurity-engineer:
netstat / WAF logs)Goal: Fix "Disk Full" alerts without human intervention.
Steps:
Trigger
DiskSpaceLow (> 90%).Action
docker system prune -f or journalctl --vacuum-time=1d.Notification
Use case: Preventing cascading failures when a dependency acts up.
# Istio DestinationRule
apiVersion: networking.istio.io/v1beta1
kind: DestinationRule
metadata:
name: reviews
spec:
host: reviews
trafficPolicy:
connectionPool:
http:
http1MaxPendingRequests: 1
maxRequestsPerConnection: 1
outlierDetection:
consecutive5xxErrors: 1
interval: 1s
baseEjectionTime: 3m
maxEjectionPercent: 100
# Runbook: High Database CPU
**Severity:** SEV-2
**Trigger:** RDS CPU > 90% for 5 mins
## 1. Triage
- Check [Database Dashboard](link).
- Is it a specific query? (See "Top SQL" panel).
## 2. Mitigation Actions
- **Option A (Bad Query):** Kill the session.
`SELECT pg_terminate_backend(pid) FROM pg_stat_activity WHERE ...`
- **Option B (Traffic Spike):** Scale Read Replicas (Terraform apply).
- **Option C (Maintenance):** Stop non-essential cron jobs.
## 3. Escalation
- If CPU remains > 95% for 15 mins, page @database-team.
Use case: Clear communication to users.
Weekly Installs
71
Repository
GitHub Stars
43
First Seen
Jan 24, 2026
Security Audits
Gen Agent Trust HubPassSocketPassSnykWarn
Installed on
opencode59
gemini-cli55
codex55
claude-code52
cursor50
github-copilot47
Azure Data Explorer (Kusto) 查询技能:KQL数据分析、日志遥测与时间序列处理
138,800 周安装
dex-plan:将Markdown规划文档自动转换为可追踪任务 | 项目管理自动化工具
267 周安装
Notion知识捕获插件:将对话内容自动转化为结构化文档,提升团队知识管理效率
271 周安装
Vue 3 最佳实践与性能优化指南 - 常见陷阱、响应式、计算属性详解
272 周安装
阿里云函数计算FC 3.0 Serverless Devs部署指南:Python项目快速上手
270 周安装
JavaScript概念文档测试编写器 - 自动生成Vitest测试,验证代码示例准确性
274 周安装
阿里云备份HBR技能:使用OpenAPI和SDK管理云备份资源的完整指南
271 周安装