QA可观测性与性能工程指南：OpenTelemetry、SLO与分布式追踪实践

qa-observability by vasilyu1983/ai-agents-public

76 周安装量

49 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/vasilyu1983/ai-agents-public --skill qa-observability

可观测性开发运维测试

🇨🇳中文介绍

QA 可观测性与性能工程

利用遥测数据（日志、指标、追踪、性能剖析）作为 QA 信号和调试基础。

核心参考（参见 data/sources.json）：OpenTelemetry、W3C Trace Context 以及 SLO 实践（Google SRE）。

快速开始（默认）

如果缺少关键上下文，请询问：关键用户旅程、服务/依赖项清单、环境（本地/预发/生产）、当前遥测技术栈以及当前的 SLO/SLA 承诺（如果有）。

建立最低标准：关联 ID + 结构化日志 + 追踪 + 黄金指标（延迟、流量、错误、饱和度）。
验证传播：确认 traceparent（以及您的请求 ID）端到端地跨边界流动。
使故障可诊断：每次测试失败都捕获追踪链接（或追踪 ID）以及关联的日志。
定义 SLI/SLO 和错误预算策略；配置燃烧率告警（推荐多窗口燃烧率）。
产出交付物：一份就绪检查清单，加上 SLO 定义和告警规则（使用 assets/checklists/template-observability-readiness-checklist.md 和 assets/monitoring/slo/*）。

默认 QA 立场

将遥测数据视为验收标准的一部分（特别是对于集成/E2E 测试）。
要求跨边界关联：request_id + trace_id (traceparent)。
优先采用基于 SLO 的发布门控和燃烧率告警，而非原始基础设施阈值。
预算开销：采样、基数、保留期和成本都是质量约束。
默认情况下对 PII/机密信息进行脱敏处理（日志和属性）。

核心工作流

建立最低标准（日志 + 指标 + 追踪 + 关联）。

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

相关 Skills

Vercel React 最佳实践指南 | 58条Next.js性能优化规则与代码重构

294,600 周安装

agent-browser 浏览器自动化工具 - Vercel Labs 命令行网页操作与测试

166,500 周安装

Azure Data Explorer (Kusto) 查询技能：KQL数据分析、日志遥测与时间序列处理

145,500 周安装

Azure 配额管理指南：服务限制、容量验证与配额增加方法

116,900 周安装

任务	推荐默认方案	备注
追踪	OpenTelemetry + Jaeger/Tempo	尽可能通过 Collector 使用 OTLP 导出器
指标	Prometheus + Grafana	使用直方图统计延迟；注意基数
日志记录	结构化 JSON + 关联 ID	切勿记录机密信息/PII；积极进行脱敏处理
可靠性门控	SLO + 错误预算 + 燃烧率告警	基于持续的燃烧/回归情况来门控发布
性能	性能剖析 + 负载测试 + 预算	为间歇性问题添加持续性能剖析
零代码可见性	eBPF (OpenTelemetry 零代码) + 持续性能剖析 (Parca/Pyroscope)	在无法进行代码更改时使用

如果用户需要...	阅读	同时使用
一个最小化、生产就绪的基线	`references/core-observability-patterns.md`	`assets/checklists/template-observability-readiness-checklist.md`
Node/Python 插桩设置	`references/opentelemetry-best-practices.md`	`assets/opentelemetry/nodejs/opentelemetry-nodejs-setup.md`, `assets/opentelemetry/python/opentelemetry-python-setup.md`
跨服务的工作追踪传播	`references/distributed-tracing-patterns.md`	`assets/checklists/template-observability-readiness-checklist.md`
SLO、燃烧率告警和发布门控	`references/slo-design-guide.md`	`assets/monitoring/slo/slo-definition.yaml`, `assets/monitoring/slo/prometheus-alert-rules.yaml`
基于证据的性能剖析/负载测试	`references/performance-profiling-guide.md`	`assets/load-testing/load-testing-k6.js`, `assets/load-testing/template-load-test-artillery.yaml`
成熟度模型和路线图	`references/observability-maturity-model.md`	`assets/checklists/template-observability-readiness-checklist.md`
应避免的事项及修复方法	`references/anti-patterns-best-practices.md`	`assets/checklists/template-observability-readiness-checklist.md`
告警设计和减少疲劳	`references/alerting-strategies.md`	`assets/monitoring/slo/prometheus-alert-rules.yaml`
仪表板层次结构和布局	`references/dashboard-design-patterns.md`	`assets/monitoring/grafana/template-grafana-dashboard-observability.json`
结构化日志记录和成本控制	`references/log-aggregation-patterns.md`	`assets/observability/template-logging-setup.md`

references/core-observability-patterns.md
references/opentelemetry-best-practices.md
references/distributed-tracing-patterns.md
references/slo-design-guide.md
references/performance-profiling-guide.md
references/observability-maturity-model.md
references/anti-patterns-best-practices.md
references/alerting-strategies.md
references/dashboard-design-patterns.md
references/log-aggregation-patterns.md

assets/checklists/template-observability-readiness-checklist.md
assets/opentelemetry/nodejs/opentelemetry-nodejs-setup.md
assets/opentelemetry/python/opentelemetry-python-setup.md
assets/monitoring/slo/slo-definition.yaml
assets/monitoring/slo/prometheus-alert-rules.yaml
assets/monitoring/grafana/grafana-dashboard-slo.json
assets/monitoring/grafana/template-grafana-dashboard-observability.json
assets/load-testing/load-testing-k6.js
assets/load-testing/template-load-test-artillery.yaml
assets/performance/frontend/template-lighthouse-ci.json
assets/performance/backend/template-nodejs-profiling-config.js

纯基础设施监控（Kubernetes、Docker、CI/CD）：../ops-devops-platform/SKILL.md
数据库查询优化（SQL 调优、索引）：../data-sql-optimization/SKILL.md
应用级调试（堆栈跟踪、断点）：../qa-debugging/SKILL.md
测试策略设计（覆盖率、测试金字塔）：../qa-testing-strategy/SKILL.md
弹性模式（重试、熔断器）：../qa-resilience/SKILL.md
架构决策（微服务、事件驱动）：../software-architecture-design/SKILL.md

🇺🇸English

QA Observability and Performance Engineering

Use telemetry (logs, metrics, traces, profiles) as a QA signal and a debugging substrate.

Core references (see data/sources.json): OpenTelemetry, W3C Trace Context, and SLO practices (Google SRE).

Quick Start (Default)

If key context is missing, ask for: critical user journeys, service/dependency inventory, environments (local/staging/prod), current telemetry stack, and current SLO/SLA commitments (if any).

Establish the minimum bar: correlation IDs + structured logs + traces + golden metrics (latency, traffic, errors, saturation).
Verify propagation: confirm traceparent (and your request ID) flow across boundaries end-to-end.
Make failures diagnosable: every test failure captures a trace link (or trace ID) plus the correlated logs.
Define SLIs/SLOs and error budget policy; wire burn-rate alerts (prefer multi-window burn rates).
Produce artifacts: a readiness checklist plus an SLO definition and alert rules (use assets/checklists/template-observability-readiness-checklist.md and assets/monitoring/slo/*).

Default QA stance

Treat telemetry as part of acceptance criteria (especially for integration/E2E tests).
Require correlation: request_id + trace_id (traceparent) across boundaries.
Prefer SLO-based release gating and burn-rate alerting over raw infra thresholds.
Budget overhead: sampling, cardinality, retention, and cost are quality constraints.
Redact PII/secrets by default (logs and attributes).

Core workflows

Establish the minimum bar (logs + metrics + traces + correlation).
Instrument with OpenTelemetry (auto-instrument first, then add manual spans for key paths).
Verify context propagation across service boundaries (traceparent in/out).
Define SLIs/SLOs and error budget policy; wire burn-rate alerts.
Make failures diagnosable: capture a trace link + key logs on every test failure.
Profile and load test only after telemetry is reliable; validate against baselines.

Quick reference

Task	Recommended default	Notes
Tracing	OpenTelemetry + Jaeger/Tempo	Prefer OTLP exporters via Collector when possible
Metrics	Prometheus + Grafana	Use histograms for latency; watch cardinality
Logging	Structured JSON + correlation IDs	Never log secrets/PII; redact aggressively
Reliability gates	SLOs + error budgets + burn-rate alerts	Gate releases on sustained burn/regressions
Performance	Profiling + load tests + budgets	Add continuous profiling for intermittent issues
Zero-code visibility	eBPF (OpenTelemetry zero-code) + continuous profiling (Parca/Pyroscope)	Use when code changes are not feasible

Navigation

Open these guides when needed:

If the user needs...	Read	Also use
A minimal, production-ready baseline	`references/core-observability-patterns.md`	`assets/checklists/template-observability-readiness-checklist.md`
Node/Python instrumentation setup	`references/opentelemetry-best-practices.md`	`assets/opentelemetry/nodejs/opentelemetry-nodejs-setup.md`, `assets/opentelemetry/python/opentelemetry-python-setup.md`
Working trace propagation across services	`references/distributed-tracing-patterns.md`

Implementation guides (deep dives):

references/core-observability-patterns.md
references/opentelemetry-best-practices.md
references/distributed-tracing-patterns.md
references/slo-design-guide.md
references/performance-profiling-guide.md
references/observability-maturity-model.md
references/anti-patterns-best-practices.md
references/alerting-strategies.md
references/dashboard-design-patterns.md

Templates (copy/paste):

assets/checklists/template-observability-readiness-checklist.md
assets/opentelemetry/nodejs/opentelemetry-nodejs-setup.md
assets/opentelemetry/python/opentelemetry-python-setup.md
assets/monitoring/slo/slo-definition.yaml
assets/monitoring/slo/prometheus-alert-rules.yaml
assets/monitoring/grafana/grafana-dashboard-slo.json
assets/monitoring/grafana/template-grafana-dashboard-observability.json
assets/load-testing/load-testing-k6.js

Curated sources:

data/sources.json

Scope boundaries (handoffs)

Pure infrastructure monitoring (Kubernetes, Docker, CI/CD): ../ops-devops-platform/SKILL.md
Database query optimization (SQL tuning, indexing): ../data-sql-optimization/SKILL.md
Application-level debugging (stack traces, breakpoints): ../qa-debugging/SKILL.md
Test strategy design (coverage, test pyramids): ../qa-testing-strategy/SKILL.md
Resilience patterns (retries, circuit breakers): ../qa-resilience/SKILL.md
Architecture decisions (microservices, event-driven): ../software-architecture-design/SKILL.md

Tool selection notes (2026)

Default to OpenTelemetry + OTLP + Collector where possible.
Prefer burn-rate alerting against SLOs over alerting on raw infra metrics.
Treat sampling, cardinality, and retention as part of quality (not an afterthought).
When asked to pick vendors/tools, start from data/sources.json and validate time-sensitive claims with current docs/releases if the environment allows it.

Fact-Checking

Use web search/web fetch to verify current external facts, versions, pricing, deadlines, regulations, or platform behavior before final answers.
Prefer primary sources; report source links and dates for volatile information.
If web access is unavailable, state the limitation and mark guidance as unverified.

Weekly Installs

Repository

vasilyu1983/ai-…s-public

GitHub Stars

First Seen

Jan 23, 2026

Security Audits

Gen Agent Trust HubPass SocketPass SnykPass

Installed on

opencode59

cursor58

codex58

gemini-cli56

github-copilot54

claude-code51