可观测性与监控技能：结构化日志、指标、分布式追踪与告警配置完整指南

observability-%26-monitoring by ariegoldkin/ai-agent-hub

8 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/ariegoldkin/ai-agent-hub --skill 'Observability & Monitoring'

开发运维监控系统架构

🇨🇳中文介绍

可观测性与监控技能

实现可观测性的综合框架，包括结构化日志记录、指标收集、分布式追踪和告警配置。

使用场景

设置应用程序监控
实现结构化日志记录
添加指标和仪表板
配置分布式追踪
创建告警规则
调试生产环境问题

可观测性的三大支柱

┌─────────────────┬─────────────────┬─────────────────┐
│     LOGS        │     METRICS     │     TRACES      │
├─────────────────┼─────────────────┼─────────────────┤
│ What happened   │ How is system   │ How do requests │
│ at specific     │ performing      │ flow through    │
│ point in time   │ over time       │ services        │
└─────────────────┴─────────────────┴─────────────────┘

结构化日志记录

日志级别

级别	使用场景
ERROR	未处理的异常、失败的操作
WARN	已弃用的 API、重试尝试
INFO

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

RED 方法（速率、错误、耗时）

任何服务的基本指标：

Rate - 每秒请求数
Errors - 每秒失败请求数
Duration - 请求延迟分布

// HTTP request latency
buckets: [0.01, 0.05, 0.1, 0.5, 1, 2, 5]

// Database query latency
buckets: [0.001, 0.01, 0.05, 0.1, 0.5, 1]

完整的指标配置请参阅 templates/prometheus-metrics.ts

OpenTelemetry 设置

自动检测常见库：

Express/HTTP
PostgreSQL
Redis

tracer.startActiveSpan('processOrder', async (span) => {
  span.setAttribute('order.id', orderId);
  // ... work
  span.end();
});

完整设置请参阅 templates/opentelemetry-tracing.ts

级别	响应时间	示例
Critical (P1)	< 15 分钟	服务宕机、数据丢失
High (P2)	< 1 小时	主要功能损坏
Medium (P3)	< 4 小时	错误率上升
Low (P4)	次日	警告

告警	条件	严重级别
ServiceDown	`up == 0` 持续 1 分钟	Critical
HighErrorRate	5xx 错误 > 5% 持续 5 分钟	Critical
HighLatency	p95 > 2 秒持续 5 分钟	High
LowCacheHitRate	< 70% 持续 10 分钟	Medium

Prometheus 告警规则请参阅 templates/alerting-rules.yml

探针	目的	端点
Liveness	应用程序是否在运行？	`/health`
Readiness	是否准备好接收流量？	`/ready`
Startup	是否已完成启动？	`/startup`

{
  "status": "healthy|degraded|unhealthy",
  "checks": {
    "database": { "status": "pass", "latency_ms": 5 },
    "redis": { "status": "pass", "latency_ms": 2 }
  },
  "version": "1.0.0",
  "uptime": 3600
}

实现方式请参阅 templates/health-checks.ts

可观测性检查清单

JSON 结构化日志记录
请求关联 ID
RED 指标（速率、错误、耗时）
业务指标
分布式追踪
健康检查端点

服务中断告警
错误率阈值
延迟阈值
资源利用率告警

服务概览
错误分析
性能指标

扩展思维触发器

使用 Opus 4.5 扩展思维处理：

事件调查 - 关联日志、指标、追踪
告警调优 - 减少噪音，捕捉真实问题
架构决策 - 选择监控解决方案
性能调试 - 跨服务延迟分析

模板	用途
`structured-logging.ts`	包含请求中间件的 Winston 日志记录器
`prometheus-metrics.ts`	包含中间件的 HTTP、数据库、缓存指标
`opentelemetry-tracing.ts`	分布式追踪设置
`alerting-rules.yml`	Prometheus 告警规则
`health-checks.ts`	存活、就绪、启动探针

🇺🇸English

Observability & Monitoring Skill

Comprehensive frameworks for implementing observability including structured logging, metrics, distributed tracing, and alerting.

When to Use

Setting up application monitoring
Implementing structured logging
Adding metrics and dashboards
Configuring distributed tracing
Creating alerting rules
Debugging production issues

Three Pillars of Observability

┌─────────────────┬─────────────────┬─────────────────┐
│     LOGS        │     METRICS     │     TRACES      │
├─────────────────┼─────────────────┼─────────────────┤
│ What happened   │ How is system   │ How do requests │
│ at specific     │ performing      │ flow through    │
│ point in time   │ over time       │ services        │
└─────────────────┴─────────────────┴─────────────────┘

Structured Logging

Log Levels

Level	Use Case
ERROR	Unhandled exceptions, failed operations
WARN	Deprecated API, retry attempts
INFO	Business events, successful operations
DEBUG	Development troubleshooting

Best Practice

// Good: Structured with context
logger.info('User action completed', {
  action: 'purchase',
  userId: user.id,
  orderId: order.id,
  duration_ms: 150
});

// Bad: String interpolation
logger.info(`User ${user.id} completed purchase`);

See templates/structured-logging.ts for Winston setup and request middleware

Metrics Collection

RED Method (Rate, Errors, Duration)

Essential metrics for any service:

Rate - Requests per second
Errors - Failed requests per second
Duration - Request latency distribution

Prometheus Buckets

// HTTP request latency
buckets: [0.01, 0.05, 0.1, 0.5, 1, 2, 5]

// Database query latency
buckets: [0.001, 0.01, 0.05, 0.1, 0.5, 1]

See templates/prometheus-metrics.ts for full metrics configuration

Distributed Tracing

OpenTelemetry Setup

Auto-instrument common libraries:

Express/HTTP
PostgreSQL
Redis

Manual Spans

tracer.startActiveSpan('processOrder', async (span) => {
  span.setAttribute('order.id', orderId);
  // ... work
  span.end();
});

See templates/opentelemetry-tracing.ts for full setup

Alerting Strategy

Severity Levels

Level	Response Time	Examples
Critical (P1)	< 15 min	Service down, data loss
High (P2)	< 1 hour	Major feature broken
Medium (P3)	< 4 hours	Increased error rate
Low (P4)	Next day	Warnings

Key Alerts

Alert	Condition	Severity
ServiceDown	`up == 0` for 1m	Critical
HighErrorRate	5xx > 5% for 5m	Critical
HighLatency	p95 > 2s for 5m	High
LowCacheHitRate	< 70% for 10m	Medium

See templates/alerting-rules.yml for Prometheus alerting rules

Health Checks

Kubernetes Probes

Probe	Purpose	Endpoint
Liveness	Is app running?	`/health`
Readiness	Ready for traffic?	`/ready`
Startup	Finished starting?	`/startup`

Readiness Response

{
  "status": "healthy|degraded|unhealthy",
  "checks": {
    "database": { "status": "pass", "latency_ms": 5 },
    "redis": { "status": "pass", "latency_ms": 2 }
  },
  "version": "1.0.0",
  "uptime": 3600
}

See templates/health-checks.ts for implementation

Observability Checklist

Implementation

JSON structured logging
Request correlation IDs
RED metrics (Rate, Errors, Duration)
Business metrics
Distributed tracing
Health check endpoints

Alerting

Service outage alerts
Error rate thresholds
Latency thresholds
Resource utilization alerts

Dashboards

Service overview
Error analysis
Performance metrics

Extended Thinking Triggers

Use Opus 4.5 extended thinking for:

Incident investigation - Correlating logs, metrics, traces
Alert tuning - Reducing noise, catching real issues
Architecture decisions - Choosing monitoring solutions
Performance debugging - Cross-service latency analysis

Templates Reference

Template	Purpose
`structured-logging.ts`	Winston logger with request middleware
`prometheus-metrics.ts`	HTTP, DB, cache metrics with middleware
`opentelemetry-tracing.ts`	Distributed tracing setup
`alerting-rules.yml`	Prometheus alerting rules
`health-checks.ts`	Liveness, readiness, startup probes

Weekly Installs

Repository

ariegoldkin/ai-agent-hub

GitHub Stars

First Seen

Jan 1, 1970

Azure 升级评估与自动化工具 - 轻松迁移 Functions 计划、托管层级和 SKU

64,099 周安装