数据分析和叙事技能 - 金融、SaaS、RevOps场景的7阶段工作流与决策审计

data-analysis by casper-studios/casper-marketplace

159 周安装量

10 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/casper-studios/casper-marketplace --skill data-analysis

Python Web框架数据分析业务分析

🇨🇳中文介绍

数据分析

概述

一个专为金融、SaaS 和 RevOps 场景优化的综合性数据分析和叙事技能。该技能提供结构化的工作流程，将原始数据转化为可操作的见解，并完全透明地展示分析决策、偏差认知和渐进式披露报告。

工作流程概述

每次分析都遵循一个 7 阶段流程：

1. 设置    → 初始化 Marimo 笔记本（运行 init_marimo_notebook.py）
2. 数据摄取 → 加载数据，记录数据源和假设
3. 探索    → 进行探索性数据分析并记录决策（为何选择此可视化，为何应用此过滤器）
4. 建模    → 如有需要，采用可解释性优先的方法
5. 解释    → 应用偏差检查清单，适当进行限定说明
6. 数据愿望清单 → 记录数据缺口和使用的代理指标
7. 输出    → 生成相应层级的输出（幻灯片/报告/笔记本）

决策记录协议

每个分析选择都必须被记录。 这创建了审计追踪并确保了可复现性。

记录内容

决策类型	示例	记录格式
数据过滤	移除了 47 条收入为空的记录	`FILTER: [原因] - [数量] 条记录受影响`
指标选择	使用徽标流失率而非收入流失率	`METRIC: 选择 [选定指标] 而非 [备选指标] 因为 [原因]`

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

笔记本中的记录格式

# === 决策日志 ===
# FILTER: 排除了试用账户 - 移除了 1,247 条记录
# METRIC: 选择 NRR 而非 GRR，因为扩张是重要因素
# ASSUMPTION: Q4 季节性模式与去年相似 - 置信度: 中
# PROXY: 使用支持工单情感作为 NPS 代理 - 质量: 弱

分析工作流程详情

运行初始化脚本，创建一个带有预构建脚手架的新 Marimo 笔记本：

python scripts/init_marimo_notebook.py <notebook_name>

这将创建一个包含以下内容的 .py 文件：

决策日志单元格（markdown）
数据加载模板
探索性数据分析模板单元格
偏差检查清单单元格

阶段 2：数据摄取

记录数据源（文件路径、API、数据库查询）
记录行/列计数
注意任何即时数据质量问题
记录关于数据新鲜度的假设

# === 数据源 ===

# 来源: sales_data_2024.csv
# 加载时间: 2024-01-15
# 记录数: 15,847 行 x 23 列
# 备注: 数据截至 2024-01-10，与源系统有 5 天延迟

阶段 3：探索性数据分析

遵循此探索性数据分析检查清单：

关键数值变量的分布
缺失值模式
异常值检测
时间序列模式（如适用）
细分市场分解
相关性探索

记录每个可视化选择和过滤决策。

阶段 4：建模（如需要）

优先考虑可解释性：

首选： 描述性统计、队列分析
次选： 线性回归、决策树
最后手段： 复杂机器学习（需说明为何简单方法无效）

模型假设
特征重要性 / 系数
置信区间
模型无法告诉我们什么

在最终确定见解之前，运行偏差检查清单。 完整检查清单请参见 references/biases.md。

幸存者偏差：我是否只关注了"幸存者"？
辛普森悖论：细分市场趋势是否与总体趋势不同？
选择偏差：我的样本是否具有代表性？
小样本警告：样本量是否足以支持结论？

适当进行限定说明：

使用"表明"而非"证明"
说明置信度水平
指出哪些额外数据可以加强结论

阶段 5.5：验证关卡（强制）

⚠️ 关卡：在进入输出阶段之前，您必须运行数据质量验证检查清单。

这是强制性的。在最终确定之前，请运行 references/data-quality-validator.md 中的检查：

关键模式检查清单：

市场背景： 同比变化是否与市场/基线进行了比较？
权重敏感性： 如果使用综合评分，是否测试了 5-6 种权重场景？
自助法置信区间： 对于小样本，是否生成了 P10/P50/P90 范围？
幸存者量化： 是否添加了 Data_Availability 列？是否报告了覆盖率百分比？

是否披露了样本量及置信区间？
是否考虑了多重比较？
是否避免了挑选有利的基线？

是否未将相关性声称是因果关系？
是否考虑了其他解释？
是否通过了粗略验证？

关于时间范围的方法论说明： 在评估技能与运气时（例如，销售代表表现、投资回报）：

较长的时间范围（3 年以上）能揭示短期窗口所隐藏的不一致性
更多时期 = 对"可能是技能"的要求更高
一个连续 2 个季度"排名前 10%"的代表很可能只是运气
一个连续 12 个季度"排名前 10%"的代表更可能是技能
始终说明分析的时期数量及其对置信度的影响

在完成此检查清单之前，请勿进入阶段 6/7。

阶段 6：数据愿望清单

记录数据缺口和代理指标。模式请参见 references/data-wishlisting.md。

## 数据愿望清单

| 缺失数据 | 使用的代理指标 | 质量 | 对分析的影响 |
|--------------|------------|---------|-------------------|
| 客户 NPS | 支持工单情感 | 弱 | 核心发现，需要验证 |
| 真实 LTV | 12 个月价值 | 中 | 可用于细分市场分析 |

阶段 7：输出生成

根据受众和目的选择输出层级：

层级	使用时机	工具
幻灯片	执行摘要、董事会演示文稿	`generate_pptx_summary.py`
报告	详细发现、利益相关者评审	Markdown/PDF
笔记本	完整分析、数据团队交接	Marimo .py 文件

数据清洗工作流程

针对需要在分析前进行清洗的杂乱数据：

python scripts/profile_data.py <csv_file> --output data_quality_report.md

列级统计（空值、唯一值、类型）
数据质量评分（A-F 等级）
可疑模式检测
建议的清洗步骤

2. 应用清洗模式

参考 references/data-cleaning.md 了解：

缺失值处理策略（删除、插补、标记）
异常值检测方法（IQR、z 分数、领域规则）
常见转换（透视、融合、合并模式）
类型强制转换方法
去重模式

3. 处理日期时间问题

参考 references/datetime-handling.md 了解：

时区转换模式
混合格式的日期解析
财年日历处理（财年 vs 日历年）
周期聚合（日 → 周 → 月）
工作日计算

仪表板构建工作流程

针对交互式监控仪表板：

1. 初始化仪表板

python scripts/init_dashboard.py <dashboard_name>

这将创建一个包含以下内容的 Marimo 仪表板：

KPI 卡片行
过滤器侧边栏（细分市场、日期范围、周期）
时间序列趋势图
摘要数据表
响应式布局

2. 应用仪表板模式

参考 references/dashboard-patterns.md 了解：

Marimo 布局模式（侧边栏、标签页、网格）
带迷你图的 KPI 卡片模板
用于交互的过滤器/滑块模式
数据表样式和格式化
带范围选择的时间序列
实时数据的刷新模式

数据质量验证工作流程

在呈现或接受分析结论之前：

运行数据质量验证检查清单

参考 references/data-quality-validator.md 获取全面的检查清单：

P 值操纵 / 多重比较
小样本外推
缺失置信区间
挑选有利的基线

截断的 y 轴
双 y 轴操纵
3D 图表
误导性刻度

相关性 ≠ 因果关系
生态学谬误
忽略基础比率
幸存者偏差

合理性检查：

这能通过直觉检验吗？
粗略验证
历史比较
跨来源验证

Excel 输出工作流程

用于将分析结果导出到具有适当公式和格式的 Excel：

参考 references/xlsx-patterns.md 了解：

颜色编码约定（蓝色=输入，黑色=公式，绿色=跨工作表链接）
数字格式化标准（货币、百分比、倍数）
公式构建规则（使用公式，而非硬编码值）
分析的常用公式模式

创建包含公式的 Excel 文件后，务必重新计算：

python scripts/recalc.py output.xlsx

所有公式都已计算（openpyxl 不计算公式）
零公式错误（#REF!、#DIV/0! 等）
JSON 输出显示需要修复的任何错误

PDF 处理工作流程

用于从 PDF 提取数据或创建 PDF 报告：

参考 references/pdf-patterns.md 了解：

文本提取（pypdf、pdfplumber）
表格提取到 DataFrame
扫描文档的 OCR
命令行工具（pdftotext、qpdf）

参考 references/pdf-patterns.md 了解：

使用 reportlab 创建基本报告
包含章节和表格的专业报告
在 PDF 中嵌入 matplotlib 图表
合并/拆分操作

在分析过程中根据需要加载这些文件：

参考文件	使用时机
`references/metrics.md`	计算 SaaS/RevOps 指标
`references/biases.md`	解释阶段，在最终确定见解之前
`references/report-templates.md`	构建输出结构（金字塔式 vs 咨询式）
`references/visualization-guide.md`	选择图表类型，避免反模式
`references/data-wishlisting.md`	记录数据缺口，评估代理指标质量
`references/data-cleaning.md`	数据质量检查，清洗模式
`references/datetime-handling.md`	时区、解析、财年日历
`references/dashboard-patterns.md`	Marimo 布局、KPI、交互性
`references/data-quality-validator.md`	数据质量验证，问题检测
`references/xlsx-patterns.md`	Excel 输出、财务模型标准、公式
`references/pdf-patterns.md`	PDF 提取、报告创建、操作

脚本	用途	用法
`scripts/init_marimo_notebook.py`	初始化分析工作空间	`python scripts/init_marimo_notebook.py <name>`
`scripts/generate_pptx_summary.py`	根据发现创建幻灯片演示文稿	`python scripts/generate_pptx_summary.py <config.json>`
`scripts/profile_data.py`	生成数据质量报告	`python scripts/profile_data.py <csv_file>`
`scripts/init_dashboard.py`	搭建交互式仪表板脚手架	`python scripts/init_dashboard.py <name>`
`scripts/recalc.py`	重新计算 Excel 公式	`python scripts/recalc.py <xlsx_file>`

工具	用途	原因
Marimo	笔记本环境	纯 Python 文件、响应式、对 Git 友好
pandas	数据操作	可靠的 LLM 代码生成、成熟的生态系统
Matplotlib/Seaborn	可视化	出版质量、静态、支持良好
python-pptx	幻灯片生成	程序化创建 PowerPoint
openpyxl	Excel 文件	公式、格式化、财务模型
pypdf/pdfplumber	PDF 处理	提取文本、表格；创建报告
reportlab	PDF 创建	专业 PDF 报告

"按细分市场分析我们的 ARR 趋势，并确定增长/流失的驱动因素"

销售管道分析：

"按交易规模和销售代表构建胜率分析"

"为 2023 年获取的客户创建留存队列分析"

"基于当前销售管道预测下季度收入"

董事会演示文稿：

"创建我们关键 SaaS 指标的执行摘要演示文稿"

"清洗这个杂乱的 CSV 文件并剖析数据质量"

"构建一个仪表板来监控我们的关键 SaaS 指标"

"在我呈现这些发现之前进行验证"

"将此分析导出到具有适当公式和格式的 Excel"

"从此季度报告 PDF 中提取表格"

"在 Excel 中创建一个包含情景输入的收入预测模型"

2026 年 2 月 24 日

🇺🇸English

Data Analysis

Overview

A comprehensive data analysis and storytelling skill optimized for financial, SaaS, and RevOps contexts. This skill provides structured workflows for turning raw data into actionable insights with full transparency on analytical decisions, bias awareness, and progressive disclosure reporting.

Workflow Overview

Every analysis follows a 7-phase process:

1. SETUP    → Initialize Marimo notebook (run init_marimo_notebook.py)
2. INGEST   → Load data, document sources and assumptions
3. EXPLORE  → EDA with logged decisions (why this viz, why this filter)
4. MODEL    → If needed, with interpretable-first approach
5. INTERPRET → Apply bias checklist, hedge appropriately
6. WISHLIST → Document data gaps and proxies used
7. OUTPUT   → Generate appropriate tier (slides/report/notebook)

Decision Logging Protocol

Every analytical choice must be logged. This creates an audit trail and enables reproducibility.

What to Log

Decision Type	Example	Log Format
Data filtering	Removed 47 records with null revenue	`FILTER: [reason] - [count] records affected`
Metric choice	Used logo churn vs revenue churn	`METRIC: [chosen] over [alternative] because [reason]`
Visualization	Line chart for time series	`VIZ: [type] because [reason]`
Assumption	Assumed linear growth for projection	`ASSUMPTION: [statement] - confidence: [H/M/L]`
Proxy used	Used support tickets as NPS proxy	`PROXY: [proxy] for [missing data] - quality: [S/M/W]`

Log Format in Notebook

# === DECISION LOG ===
# FILTER: Excluded trial accounts - 1,247 records removed
# METRIC: NRR over GRR because expansion is significant factor
# ASSUMPTION: Q4 seasonality similar to prior year - confidence: M
# PROXY: Support ticket sentiment for NPS - quality: Weak

Analysis Workflow Details

Phase 1: Setup

Run the initialization script to create a new Marimo notebook with pre-built scaffolding:

python scripts/init_marimo_notebook.py <notebook_name>

This creates a .py file with:

Decision log cell (markdown)
Data loading template
EDA template cells
Bias checklist cell

Phase 2: Data Ingestion

When loading data:

Document the source (file path, API, database query)
Record row/column counts
Note any immediate data quality issues
Log assumptions about data freshness

# === DATA SOURCE ===

# Source: sales_data_2024.csv
# Loaded: 2024-01-15
# Records: 15,847 rows x 23 columns
# Note: Data through 2024-01-10, 5-day lag from source system

Phase 3: Exploratory Data Analysis

Follow this EDA checklist:

Distribution of key numeric variables
Missing value patterns
Outlier detection
Time series patterns (if applicable)
Segment breakdowns
Correlation exploration

Log every visualization choice and filtering decision.

Phase 4: Modeling (If Needed)

Prioritize interpretability:

First choice: Descriptive statistics, cohort analysis
Second choice: Linear regression, decision trees
Last resort: Complex ML (document why simpler won't work)

Always provide:

Model assumptions
Feature importance / coefficients
Confidence intervals
What the model cannot tell us

Phase 5: Interpretation

Before finalizing insights, run the bias checklist. See references/biases.md for full checklist.

Quick check:

Survivorship bias: Am I only looking at "survivors"?
Simpson's paradox: Do segment trends differ from aggregate?
Selection bias: Is my sample representative?
Small-n warning: Is sample size sufficient for claims?

Hedge appropriately:

Use "suggests" not "proves"
State confidence levels
Note what additional data would strengthen conclusions

Phase 5.5: Validation Gate (MANDATORY)

⚠️ GATE: Before proceeding to output, you MUST run the data quality validation checklist.

This is not optional. Run through references/data-quality-validator.md before finalizing:

Critical Patterns Checklist:

Market Context: Are YoY changes compared to market/baseline?
Weighting Sensitivity: If using composite scores, tested 5-6 weight scenarios?
Bootstrap CIs: For small samples, generated P10/P50/P90 ranges?
Survivorship Quantified: Data_Availability column added? Coverage % reported?

Statistical Checks:

Sample sizes disclosed with confidence intervals?
Multiple comparisons accounted for?
Cherry-picked baselines avoided?

Logic Checks:

Correlation not claimed as causation?
Alternative explanations considered?
Back-of-envelope validation passed?

Methodology Note on Time Horizons: When assessing skill vs luck (e.g., sales rep performance, investment returns):

Longer time horizons (3+ years) reveal inconsistency that short windows hide
More periods = higher bar for "likely skill"
A rep who is "top 10%" for 2 quarters could easily be luck
A rep who is "top 10%" for 12 quarters is more likely skill
Always state the number of periods analyzed and what that implies for confidence

Do not proceed to Phase 6/7 until this checklist is complete.

Phase 6: Data Wishlisting

Document gaps and proxies. See references/data-wishlisting.md for patterns.

Format:

## Data Wishlist

| Missing Data | Proxy Used | Quality | Impact on Analysis |
|--------------|------------|---------|-------------------|
| Customer NPS | Support sentiment | Weak | Core finding, needs validation |
| True LTV | 12-month value | Moderate | Acceptable for segmentation |

Phase 7: Output Generation

Choose output tier based on audience and purpose:

Tier	When to Use	Tool
Slides	Executive summary, board deck	`generate_pptx_summary.py`
Report	Detailed findings, stakeholder review	Markdown/PDF
Notebook	Full analysis, data team handoff	Marimo .py file

Data Cleaning Workflow

For messy data that needs cleaning before analysis:

1. Profile the Data

python scripts/profile_data.py <csv_file> --output data_quality_report.md

This generates:

Column-level statistics (nulls, uniques, types)
Data quality score (A-F grading)
Suspicious pattern detection
Suggested cleaning steps

2. Apply Cleaning Patterns

Reference references/data-cleaning.md for:

Missing value strategies (drop, impute, flag)
Outlier detection methods (IQR, z-score, domain rules)
Common transforms (pivot, melt, merge patterns)
Type coercion recipes
Deduplication patterns

3. Handle Datetime Issues

Reference references/datetime-handling.md for:

Timezone conversion patterns
Date parsing for mixed formats
Fiscal calendar handling (FY vs CY)
Period aggregation (daily → weekly → monthly)
Business day calculations

Dashboard Building Workflow

For interactive monitoring dashboards:

1. Initialize Dashboard

python scripts/init_dashboard.py <dashboard_name>

This creates a Marimo dashboard with:

KPI cards row
Filter sidebar (segment, date range, period)
Time series trend chart
Summary data table
Responsive layout

2. Apply Dashboard Patterns

Reference references/dashboard-patterns.md for:

Marimo layout patterns (sidebar, tabs, grid)
KPI card templates with sparklines
Filter/slider patterns for interactivity
Data table styling and formatting
Time series with range selection
Refresh patterns for live data

Data Quality Validation Workflow

Before presenting or accepting analytical claims:

Run the Data Quality Validation Checklist

Reference references/data-quality-validator.md for comprehensive checklists:

Statistical Sins:

P-hacking / multiple comparisons
Small sample extrapolation
Missing confidence intervals
Cherry-picked baselines

Chart Crimes:

Truncated y-axis
Dual y-axis manipulation
3D charts
Misleading scales

Logic Fallacies:

Correlation ≠ causation
Ecological fallacy
Base rate neglect
Survivorship bias

Sanity Checks:

Does this pass the smell test?
Back-of-envelope validation
Historical comparison
Cross-source validation

Excel Output Workflow

For exporting analysis results to Excel with proper formulas and formatting:

Financial Model Standards

Reference references/xlsx-patterns.md for:

Color coding convention (blue=inputs, black=formulas, green=cross-sheet links)
Number formatting standards (currency, percentages, multiples)
Formula construction rules (use formulas, not hardcoded values)
Common formula patterns for analysis

Verification

After creating Excel files with formulas, always recalculate:

python scripts/recalc.py output.xlsx

This ensures:

All formulas are calculated (openpyxl doesn't evaluate formulas)
Zero formula errors (#REF!, #DIV/0!, etc.)
JSON output shows any errors to fix

PDF Handling Workflow

For extracting data from PDFs or creating PDF reports:

Extracting Data

Reference references/pdf-patterns.md for:

Text extraction (pypdf, pdfplumber)
Table extraction to DataFrame
OCR for scanned documents
Command-line tools (pdftotext, qpdf)

Creating Reports

Reference references/pdf-patterns.md for:

Basic report creation with reportlab
Professional reports with sections and tables
Embedding matplotlib charts in PDFs
Merge/split operations

Reference Files

Load these as needed during analysis:

Reference	When to Use
`references/metrics.md`	Calculating SaaS/RevOps metrics
`references/biases.md`	Interpretation phase, before finalizing insights
`references/report-templates.md`	Structuring output (pyramid vs consulting style)
`references/visualization-guide.md`	Choosing chart types, avoiding anti-patterns
`references/data-wishlisting.md`	Documenting gaps, rating proxy quality
`references/data-cleaning.md`

Scripts

Script	Purpose	Usage
`scripts/init_marimo_notebook.py`	Initialize analysis workspace	`python scripts/init_marimo_notebook.py <name>`
`scripts/generate_pptx_summary.py`	Create slide deck from findings	`python scripts/generate_pptx_summary.py <config.json>`
`scripts/profile_data.py`	Generate data quality report	`python scripts/profile_data.py <csv_file>`

Technology Stack

Tool	Purpose	Why
Marimo	Notebook environment	Pure Python files, reactive, git-friendly
pandas	Data manipulation	Reliable LLM code generation, mature ecosystem
Matplotlib/Seaborn	Visualization	Publication-quality, static, well-supported
python-pptx	Slide generation	Programmatic PowerPoint creation
openpyxl	Excel files	Formulas, formatting, financial models
pypdf/pdfplumber	PDF handling	Extract text, tables; create reports
reportlab	PDF creation	Professional PDF reports

Example Invocations

Revenue analysis:

"Analyze our ARR trends by segment and identify drivers of growth/churn"

Pipeline analytics:

"Build a win rate analysis by deal size and sales rep"

Cohort analysis:

"Create a retention cohort analysis for customers acquired in 2023"

Forecasting:

"Project next quarter revenue based on current pipeline"

Board deck:

"Create an executive summary deck of our key SaaS metrics"

Data cleaning:

"Clean this messy CSV and profile the data quality"

Dashboard:

"Build a dashboard to monitor our key SaaS metrics"

Data validation:

"Validate these findings before I present them"

Excel output:

"Export this analysis to Excel with proper formulas and formatting"

PDF extraction:

"Extract the tables from this quarterly report PDF"

Financial model:

"Create a revenue projection model in Excel with scenario inputs"

Weekly Installs

Repository

casper-studios/…ketplace

GitHub Stars

First Seen

Feb 24, 2026

Security Audits

Gen Agent Trust HubPass SocketPass SnykPass

Installed on

cline98

github-copilot98

codex98

kimi-cli98

gemini-cli98

cursor98

DOCX文件创建、编辑与分析完整指南 - 使用docx-js、Pandoc和Python脚本

51,800 周安装