使用Polars进行高效数据分析 - 数据加载、清洗、转换与可视化完整指南

data_analysis by artificialanalysis/stirrup

190 周安装量

343 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/artificialanalysis/stirrup --skill data_analysis

Python Web框架数据分析数据处理

🇨🇳中文介绍

数据分析技能

使用 Polars（一个极速的 DataFrame 库）的全面数据分析工具包。此技能为常见的数据分析任务提供使用说明、参考文档和即用脚本。

迭代检查点

步骤	需要呈现的内容	用户输入类型
数据加载	数据形状、列信息、示例行	"这是正确的数据吗？"
数据探索	汇总统计、数据质量问题	"需要重点关注哪些列？"
数据转换	转换前后的对比	"这个转换看起来正确吗？"
数据分析	关键发现、图表	"是否需要深入探究任何方面？"
数据导出	输出预览	"可以保存了，还是需要修改？"

快速开始

import polars as pl
from polars import col

# 加载数据
df = pl.read_csv("data.csv")

# 探索数据
print(df.shape, df.schema)
df.describe()

# 转换和分析
result = (
    df.filter(col("value") > 0)
    .group_by("category")
    .agg(col("value").sum().alias("total"))
    .sort("total", descending=True)
)

# 导出
result.write_csv("output.csv")

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

何时使用此技能

加载数据集（CSV、JSON、Parquet、Excel、数据库）
数据清洗、筛选和转换
聚合、分组和数据透视表
统计分析和汇总统计
时间序列分析和重采样
连接和合并多个数据集
创建可视化和图表
将结果导出为各种格式

特定操作的详细 API 参考和模式：

reference/loading.md - 从所有支持的格式加载数据
reference/transformations.md - 列操作、筛选、排序、类型转换
reference/aggregations.md - 分组、窗口函数、累计总计
reference/time_series.md - 日期解析、重采样、滞后特征
reference/statistics.md - 相关性、分布、假设检验设置
reference/visualization.md - 使用 matplotlib/plotly 创建图表

用于常见任务的可执行 Python 脚本：

scripts/explore_data.py - 快速数据集探索和分析
scripts/summary_stats.py - 生成全面的统计报告

# CSV（最常见）
df = pl.read_csv("data.csv")

# 大文件的惰性加载
df = pl.scan_csv("large.csv").filter(col("x") > 0).collect()

# Parquet（推荐用于大型数据集）
df = pl.read_parquet("data.parquet")

# JSON
df = pl.read_json("data.json")
df = pl.read_ndjson("data.ndjson")  # 换行分隔

# 选择列
df.select("col1", "col2")
df.select(col("name"), col("value") * 2)

# 筛选行
df.filter(col("age") > 25)
df.filter((col("status") == "active") & (col("value") > 100))
df.filter(col("name").str.contains("Smith"))

# 添加/修改列
df = df.with_columns(
    (col("price") * col("qty")).alias("total"),
    col("date_str").str.to_date("%Y-%m-%d").alias("date"),
)

# 条件值
df = df.with_columns(
    pl.when(col("score") >= 90).then(pl.lit("A"))
    .when(col("score") >= 80).then(pl.lit("B"))
    .otherwise(pl.lit("C"))
    .alias("grade")
)

# 分组
df.group_by("category").agg(
    col("value").sum().alias("total"),
    col("value").mean().alias("avg"),
    pl.len().alias("count"),
)

# 窗口函数
df.with_columns(
    col("value").sum().over("group").alias("group_total"),
    col("value").rank().over("group").alias("rank_in_group"),
)

df.write_csv("output.csv")
df.write_parquet("output.parquet")
df.write_json("output.json", row_oriented=True)

对大型数据集使用惰性求值：pl.scan_csv() + .collect()
尽早筛选，以减少昂贵操作前的数据量
仅选择需要的列，以最小化内存使用
存储时首选 Parquet - 更快的 I/O，更好的压缩
使用 .explain() 来理解和优化查询计划

🇺🇸English

Data Analysis Skill

Comprehensive data analysis toolkit using Polars - a blazingly fast DataFrame library. This skill provides instructions, reference documentation, and ready-to-use scripts for common data analysis tasks.

Iteration Checkpoints

Step	What to Present	User Input Type
Data Loading	Shape, columns, sample rows	"Is this the right data?"
Data Exploration	Summary stats, data quality issues	"Any columns to focus on?"
Transformation	Before/after comparison	"Does this transformation look correct?"
Analysis	Key findings, charts	"Should I dig deeper into anything?"
Export	Output preview	"Ready to save, or any changes?"

Quick Start

import polars as pl
from polars import col

# Load data
df = pl.read_csv("data.csv")

# Explore
print(df.shape, df.schema)
df.describe()

# Transform and analyze
result = (
    df.filter(col("value") > 0)
    .group_by("category")
    .agg(col("value").sum().alias("total"))
    .sort("total", descending=True)
)

# Export
result.write_csv("output.csv")

When to Use This Skill

Loading datasets (CSV, JSON, Parquet, Excel, databases)
Data cleaning, filtering, and transformation
Aggregations, grouping, and pivot tables
Statistical analysis and summary statistics
Time series analysis and resampling
Joining and merging multiple datasets
Creating visualizations and charts
Exporting results to various formats

Skill Contents

Reference Documentation

Detailed API reference and patterns for specific operations:

reference/loading.md - Loading data from all supported formats
reference/transformations.md - Column operations, filtering, sorting, type casting
reference/aggregations.md - Group by, window functions, running totals
reference/time_series.md - Date parsing, resampling, lag features
reference/statistics.md - Correlations, distributions, hypothesis testing setup
reference/visualization.md - Creating charts with matplotlib/plotly

Ready-to-Use Scripts

Executable Python scripts for common tasks:

scripts/explore_data.py - Quick dataset exploration and profiling
scripts/summary_stats.py - Generate comprehensive statistics report

Core Patterns

Loading Data

# CSV (most common)
df = pl.read_csv("data.csv")

# Lazy loading for large files
df = pl.scan_csv("large.csv").filter(col("x") > 0).collect()

# Parquet (recommended for large datasets)
df = pl.read_parquet("data.parquet")

# JSON
df = pl.read_json("data.json")
df = pl.read_ndjson("data.ndjson")  # Newline-delimited

Filtering and Selection

# Select columns
df.select("col1", "col2")
df.select(col("name"), col("value") * 2)

# Filter rows
df.filter(col("age") > 25)
df.filter((col("status") == "active") & (col("value") > 100))
df.filter(col("name").str.contains("Smith"))

Transformations

# Add/modify columns
df = df.with_columns(
    (col("price") * col("qty")).alias("total"),
    col("date_str").str.to_date("%Y-%m-%d").alias("date"),
)

# Conditional values
df = df.with_columns(
    pl.when(col("score") >= 90).then(pl.lit("A"))
    .when(col("score") >= 80).then(pl.lit("B"))
    .otherwise(pl.lit("C"))
    .alias("grade")
)

Aggregations

# Group by
df.group_by("category").agg(
    col("value").sum().alias("total"),
    col("value").mean().alias("avg"),
    pl.len().alias("count"),
)

# Window functions
df.with_columns(
    col("value").sum().over("group").alias("group_total"),
    col("value").rank().over("group").alias("rank_in_group"),
)

Exporting

df.write_csv("output.csv")
df.write_parquet("output.parquet")
df.write_json("output.json", row_oriented=True)

Best Practices

Use lazy evaluation for large datasets: pl.scan_csv() + .collect()
Filter early to reduce data volume before expensive operations
Select only needed columns to minimize memory usage
Prefer Parquet for storage - faster I/O, better compression
Use.explain() to understand and optimize query plans

Weekly Installs

177

Repository

artificialanaly…/stirrup

GitHub Stars

320

First Seen

Feb 11, 2026

Installed on

kimi-cli174

gemini-cli174

amp174

github-copilot174

codex174

opencode174

DOCX文件创建、编辑与分析完整指南 - 使用docx-js、Pandoc和Python脚本

51,800 周安装