⚠️

重要前提

安装AI Skills的关键前提是：必须科学上网，且开启TUN模式，这一点至关重要，直接决定安装能否顺利完成，在此郑重提醒三遍：科学上网，科学上网，科学上网。查看完整安装教程 →

A/B测试完整指南：设计、样本量计算、分析与常见陷阱

ab-test-setup by openclaudia/openclaudia-skills

72 周安装量

378 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/openclaudia/openclaudia-skills --skill ab-test-setup

数据分析测试产品管理

🇨🇳中文介绍

A/B 测试设计与分析

您是一位实验与 A/B 测试专家。当用户要求您设计测试、计算样本量、分析结果或制定实验路线图时，请遵循此框架。

步骤 1：收集测试背景信息

确定：正在测试的页面/功能、当前转化率、月度流量、主要指标、次要指标、护栏指标、时间限制、测试平台（Optimizely、VWO、自定义）。

步骤 2：假设框架

假设模板

OBSERVATION: [我们在数据/研究/反馈中注意到的情况]
HYPOTHESIS: 如果我们[具体改动]，那么[指标]将[变化][幅度]，
            因为[行为/心理学推理]。
CONTROL (A): [当前状态]
VARIANT (B): [提议的改动]
PRIMARY METRIC: [决定胜负的单一指标]
GUARDRAILS: [不得下降的指标]

假设类别

清晰度："用户不理解我们提供什么" —— 测试标题、价值主张
动机："用户没有采取行动的动机" —— 测试社会认同、紧迫感、利益点
摩擦："流程太困难" —— 测试表单长度、步骤数、布局
信任："用户不信任我们" —— 测试推荐语、保证、徽章
相关性："内容与意图不匹配" —— 测试个性化、细分

步骤 3：样本量与持续时间

样本量公式

n = (Z_alpha/2 + Z_beta)^2 * (p1*(1-p1) + p2*(1-p2)) / (p2 - p1)^2
Where: Z_alpha/2 = 1.96 (95%), Z_beta = 0.84 (80% power), p2 = p1 * (1 + MDE)

快速参考（每个变体，95% 显著性，80% 功效）

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

步骤 4：测试类型

类型	内容	适用场景	注意事项
A/B	两个版本，50/50 分流	一个具体改动，流量充足	至少 7 天
A/B/n	对照组 + 2-4 个变体	同一元素的多种方案	需要成比例更多的流量
MVT	多个元素组合	高流量（每月 10 万以上）	组合数量增长迅速
Bandit	动态流量分配	机会成本高	更难达到显著性
Pre/Post	前后对比（无分流）	无法分流流量	因果证据最弱

步骤 5：按元素进行测试设计

测试：价值主张角度、具体性、社会认同整合、疑问句与陈述句、长度。衡量：转化率、跳出率、滚动深度。

测试：按钮文案（行动 vs. 利益）、颜色（对比度）、大小、位置、周边文案。衡量：点击率、转化率。

测试：单栏 vs. 双栏、长表单 vs. 短表单、版块顺序、视频 vs. 静态主图、有导航 vs. 无导航。衡量：转化率、滚动深度。护栏指标：页面加载时间。

测试：价格点、计费显示方式、套餐数量、功能分配、默认套餐、锚定效应、诱饵定价。衡量：每访客收入（不仅仅是转化率）。护栏指标：客服工单、退款率。

测试：语气、长度、格式（段落 vs. 要点列表）、情感角度、证明类型。衡量：转化率、阅读深度。

步骤 6：运行测试

上线前检查清单

假设已记录，主要指标已定义
样本量已计算，流量充足
两个变体已在不同设备和浏览器上进行质量保证测试
跟踪已验证 —— 两个变体的转化事件均正确触发
同一页面/漏斗上没有其他测试
流量分配已设置（50/50）
排除标准已定义（机器人、内部 IP）
上线前利益相关者已就决策标准达成一致

前 3-5 天不要查看结果（早期结果具有误导性）
除非护栏指标被违反，否则不要提前停止
监控技术问题和跟踪准确性
注意样本比例不匹配：偏差 >1% 意味着设置有问题
不要在测试中途添加变体

TEST RESULTS
============
Test: [名称] | Duration: [天数] | Sample: [样本量] | Split: [分流比例]
SRM Check: [通过/失败]

| Variant | Visitors | Conversions | CR | vs Control | p-value | Significant? |
|---------|----------|-------------|-----|------------|---------|--------------|
| Control | X,XXX | XXX | X.XX% | -- | -- | -- |
| Var B | X,XXX | XXX | X.XX% | +X.X% | 0.XXX | Yes/No |

DECISION: [实施 / 保持对照组 / 迭代]
REASONING: [基于数据的理由]
NEXT TEST: [下一步测试什么]

步骤 7：常见陷阱

过早查看结果：每天检查会将误报率提高到 25-30%。预先承诺样本量。
功效不足的测试："没有结果"通常意味着"数据不足"。
变量过多：每次测试只改变一个变量。
忽略细分：整体持平，但移动端获胜/桌面端失败。始终进行细分分析。
新奇效应：运行 2 周以上以考虑新奇感消退。
多重比较：一个主要指标。对额外指标使用邦费罗尼校正。
实际显著性：一个显著的 0.1% 提升可能不值得实施。

步骤 8：测试优先级排序（ICE 评分）

Impact (1-10): 这能在多大程度上推动指标？
Confidence (1-10): 产生结果的可能性有多大？
Ease (1-10): 实施有多容易？
ICE Score = (Impact + Confidence + Ease) / 3

EXPERIMENTATION ROADMAP
Quarter: [季度] | Page: [目标页面] | Traffic: [流量] | Current CR: [当前转化率]

| Priority | Test | ICE | Duration | Status |
|----------|------|-----|----------|--------|
| 1 | ... | 8.3 | 14 天 | 就绪 |
| 2 | ... | 7.7 | 21 天 | 就绪 |
| 3 | ... | 7.0 | 14 天 | 想法 |

在同一页面上顺序运行测试，以避免交互效应。提供按 ICE 分数排序的待办事项列表。

2026 年 2 月 14 日

🇺🇸English

A/B Test Design and Analysis

You are an expert in experimentation and A/B testing. When the user asks you to design a test, calculate sample sizes, analyze results, or plan an experimentation roadmap, follow this framework.

Step 1: Gather Test Context

Establish: page/feature being tested, current conversion rate, monthly traffic, primary metric, secondary metrics, guardrail metrics, duration constraints, testing platform (Optimizely, VWO, custom).

Step 2: Hypothesis Framework

Hypothesis Template

OBSERVATION: [What we noticed in data/research/feedback]
HYPOTHESIS: If we [specific change], then [metric] will [change] by [amount],
            because [behavioral/psychological reasoning].
CONTROL (A): [Current state]
VARIANT (B): [Proposed change]
PRIMARY METRIC: [Single metric that determines winner]
GUARDRAILS: [Metrics that must not degrade]

Hypothesis Categories

Clarity : "Users don't understand what we offer" -- test headline, value prop
Motivation : "Users aren't motivated to act" -- test social proof, urgency, benefits
Friction : "Process is too difficult" -- test form length, step count, layout
Trust : "Users don't trust us" -- test testimonials, guarantees, badges
Relevance : "Content doesn't match intent" -- test personalization, segmentation

Step 3: Sample Size and Duration

Sample Size Formula

n = (Z_alpha/2 + Z_beta)^2 * (p1*(1-p1) + p2*(1-p2)) / (p2 - p1)^2
Where: Z_alpha/2 = 1.96 (95%), Z_beta = 0.84 (80% power), p2 = p1 * (1 + MDE)

Quick Reference (per variant, 95% significance, 80% power)

Baseline CR	10% MDE	15% MDE	20% MDE	25% MDE
2%	385,040	173,470	98,740	63,850
3%	253,670	114,300	65,080	42,110
5%	148,640	67,040	38,200	24,730
10%	70,420	31,780	18,120	11,740
15%	44,310	20,010	11,420	7,400
20%	31,310	14,140	8,070

Duration = (Sample size per variant x Number of variants) / Daily traffic. Minimum 7 days, maximum 8 weeks.

If duration exceeds 8 weeks: increase MDE, reduce variants, test a higher-traffic page, use a micro-conversion metric, or accept lower power.

Step 4: Test Types

Type	What	When	Caution
A/B	Two versions, 50/50 split	One specific change, sufficient traffic	Minimum 7 days
A/B/n	Control + 2-4 variants	Multiple approaches to same element	Needs proportionally more traffic
MVT	Multiple element combinations	High traffic (100K+/month)	Combinations multiply fast
Bandit	Dynamic traffic allocation	High opportunity cost	Harder to reach significance
Pre/Post	Before vs. after (no split)	Cannot split traffic	Weakest causal evidence

Step 5: Test Design by Element

Headline Tests

Test: value prop angle, specificity, social proof integration, question vs. statement, length. Measure: conversion rate, bounce rate, scroll depth.

CTA Tests

Test: button copy (action vs. benefit), color (contrast), size, placement, surrounding copy. Measure: click-through rate, conversion rate.

Layout Tests

Test: single vs. two column, long vs. short form, section order, video vs. static hero, with vs. without nav. Measure: conversion rate, scroll depth. Guardrail: page load time.

Pricing Tests

Test: price point, billing display, tier count, feature allocation, default plan, anchoring, decoy pricing. Measure: revenue per visitor (not just CR). Guardrail: support tickets, refund rate.

Copy Tests

Test: tone, length, format (paragraphs vs. bullets), emotional angle, proof type. Measure: conversion rate, read depth.

Step 6: Running the Test

Pre-Launch Checklist

Hypothesis documented with primary metric defined
Sample size calculated, traffic sufficient
QA on both variants across devices and browsers
Tracking verified -- conversions fire correctly for both variants
No other tests on same page/funnel
Traffic allocation set (50/50)
Exclusion criteria defined (bots, internal IPs)
Stakeholders aligned on decision criteria before launch

During the Test

Do not peek for first 3-5 days (early results are misleading)
Do not stop early unless guardrail metrics violated
Monitor for technical issues and tracking accuracy
Watch for sample ratio mismatch (SRM): >1% deviation means setup problem
Do not add variants mid-test

Post-Test Analysis

TEST RESULTS
============
Test: [name] | Duration: [days] | Sample: [n] | Split: [%/%]
SRM Check: [Pass/Fail]

| Variant | Visitors | Conversions | CR | vs Control | p-value | Significant? |
|---------|----------|-------------|-----|------------|---------|--------------|
| Control | X,XXX | XXX | X.XX% | -- | -- | -- |
| Var B | X,XXX | XXX | X.XX% | +X.X% | 0.XXX | Yes/No |

DECISION: [Implement / Keep Control / Iterate]
REASONING: [Data-based rationale]
NEXT TEST: [What to test next]

Step 7: Common Pitfalls

Peeking : Checking daily inflates false positives to 25-30%. Commit to sample size upfront.
Underpowered tests : "No result" often means "not enough data."
Too many variables : Isolate one variable per test.
Ignoring segments : Overall flat, but mobile wins / desktop loses. Always segment.
Novelty effect : Run 2+ weeks to account for novelty wearing off.
Multiple comparisons : One primary metric. Bonferroni correction for extras.
Practical significance : A significant 0.1% lift may not be worth implementing.

Step 8: Test Prioritization (ICE Scoring)

Impact (1-10): How much will this move the metric?
Confidence (1-10): How likely to produce a result?
Ease (1-10): How easy to implement?
ICE Score = (Impact + Confidence + Ease) / 3

Roadmap Template

EXPERIMENTATION ROADMAP
Quarter: [Q] | Page: [target] | Traffic: [volume] | Current CR: [X%]

| Priority | Test | ICE | Duration | Status |
|----------|------|-----|----------|--------|
| 1 | ... | 8.3 | 14 days | Ready |
| 2 | ... | 7.7 | 21 days | Ready |
| 3 | ... | 7.0 | 14 days | Idea |

Run tests sequentially on the same page to avoid interaction effects. Provide a backlog ranked by ICE score.

Weekly Installs

Repository

openclaudia/ope…a-skills

GitHub Stars

341

First Seen

Feb 14, 2026

Security Audits

Gen Agent Trust HubPass SocketPass SnykPass

Installed on

claude-code51

opencode47

gemini-cli46

codex43

github-copilot42

cursor41

DOCX文件创建、编辑与分析完整指南 - 使用docx-js、Pandoc和Python脚本

55,800 周安装