Pandas数据分析教程：Python数据清洗、转换、可视化与聚合实战指南

Pandas Data Analysis by pluginagentmarketplace/custom-plugin-python

5 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/pluginagentmarketplace/custom-plugin-python --skill 'Pandas Data Analysis'

Python Web框架数据分析数据处理

🇨🇳中文介绍

Pandas 数据分析

概述

掌握使用 Pandas 进行数据分析，Pandas 是一个强大的 Python 库，用于数据操作和分析。学习如何有效地清洗、转换、分析和可视化数据。

学习目标

从各种来源（CSV、Excel、SQL、API）加载和操作数据
清洗和转换混乱的数据集
执行探索性数据分析（EDA）
聚合和分组数据以获得洞察
创建引人注目的可视化图表
优化大型数据集的性能

核心主题

1. Pandas DataFrames 与 Series

从各种来源创建 DataFrame
索引和选择数据（loc、iloc、at、iat）
过滤和布尔索引
添加/删除列和行
数据类型和转换

代码示例：

import pandas as pd
import numpy as np

# 创建 DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David'],
    'age': [25, 30, 35, 28],
    'salary': [50000, 60000, 75000, 55000],
    'department': ['IT', 'HR', 'IT', 'Sales']
}
df = pd.DataFrame(data)

# 索引和过滤
it_employees = df[df['department'] == 'IT']
high_earners = df.loc[df['salary'] > 55000, ['name', 'salary']]

# 添加计算列
df['annual_bonus'] = df['salary'] * 0.10
df['age_group'] = pd.cut(df['age'], bins=[0, 30, 40, 100], labels=['Young', 'Mid', 'Senior'])

print(df)

2. 数据清洗与转换

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

相关 Skills

FlyClaw：零登录航班聚合查询工具，Python实现多源航班信息与价格搜索

4,000,000 周安装

Azure Data Explorer (Kusto) 查询技能：KQL数据分析、日志遥测与时间序列处理

107,900 周安装

专业SEO审计工具：全面网站诊断、技术SEO优化与页面分析指南

61,300 周安装

Python PDF处理教程：合并拆分、提取文本表格、创建PDF文件

57,000 周安装

import pandas as pd

# 加载包含缺失值的数据
df = pd.read_csv('sales_data.csv')

# 处理缺失值
df['price'].fillna(df['price'].median(), inplace=True)
df['category'].fillna('Unknown', inplace=True)
df.dropna(subset=['customer_id'], inplace=True)

# 清洗文本数据
df['product_name'] = df['product_name'].str.strip().str.lower()
df['product_name'] = df['product_name'].str.replace('[^a-zA-Z0-9 ]', '', regex=True)

# 转换日期
df['order_date'] = pd.to_datetime(df['order_date'])
df['year'] = df['order_date'].dt.year
df['month'] = df['order_date'].dt.month

# 删除重复项
df.drop_duplicates(subset=['order_id'], keep='first', inplace=True)

# 应用自定义函数
def categorize_price(price):
    if price < 50:
        return 'Low'
    elif price < 100:
        return 'Medium'
    else:
        return 'High'

df['price_category'] = df['price'].apply(categorize_price)

import pandas as pd

# 示例销售数据
df = pd.read_csv('sales.csv')

# GroupBy 聚合
dept_stats = df.groupby('department').agg({
    'salary': ['mean', 'min', 'max'],
    'employee_id': 'count'
})

# 多重分组
sales_by_region_product = df.groupby(['region', 'product_category'])['sales'].sum()

# 数据透视表
pivot = df.pivot_table(
    values='sales',
    index='product_category',
    columns='quarter',
    aggfunc='sum',
    fill_value=0
)

# 滚动窗口（移动平均）
df['sales_ma_7d'] = df.groupby('product_id')['sales'].transform(
    lambda x: x.rolling(window=7, min_periods=1).mean()
)

# 累计和
df['cumulative_sales'] = df.groupby('product_id')['sales'].cumsum()

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 设置样式
sns.set_style('whitegrid')

# 加载数据
df = pd.read_csv('sales_data.csv')

# 1. 折线图 - 随时间变化的销售趋势
df.groupby('month')['sales'].sum().plot(kind='line', figsize=(10, 6))
plt.title('月度销售趋势')
plt.xlabel('月份')
plt.ylabel('总销售额 ($)')
plt.show()

# 2. 条形图 - 按类别划分的销售额
category_sales = df.groupby('category')['sales'].sum().sort_values(ascending=False)
category_sales.plot(kind='bar', figsize=(10, 6))
plt.title('按类别划分的销售额')
plt.xlabel('类别')
plt.ylabel('总销售额 ($)')
plt.xticks(rotation=45)
plt.show()

# 3. 直方图 - 价格分布
df['price'].hist(bins=30, figsize=(10, 6))
plt.title('价格分布')
plt.xlabel('价格 ($)')
plt.ylabel('频率')
plt.show()

# 4. 箱线图 - 按部门划分的薪资
df.boxplot(column='salary', by='department', figsize=(10, 6))
plt.title('按部门划分的薪资分布')
plt.suptitle('')
plt.show()

# 5. 热力图 - 相关性矩阵
corr = df[['age', 'salary', 'years_experience']].corr()
sns.heatmap(corr, annot=True, cmap='coolwarm', center=0)
plt.title('相关性矩阵')
plt.show()

🇺🇸English

Pandas Data Analysis

Overview

Master data analysis with Pandas, the powerful Python library for data manipulation and analysis. Learn to clean, transform, analyze, and visualize data effectively.

Learning Objectives

Load and manipulate data from various sources (CSV, Excel, SQL, APIs)
Clean and transform messy datasets
Perform exploratory data analysis (EDA)
Aggregate and group data for insights
Create compelling visualizations
Optimize performance for large datasets

Core Topics

1. Pandas DataFrames & Series

Creating DataFrames from various sources
Indexing and selecting data (loc, iloc, at, iat)
Filtering and boolean indexing
Adding/removing columns and rows
Data types and conversions

Code Example:

import pandas as pd
import numpy as np

# Create DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David'],
    'age': [25, 30, 35, 28],
    'salary': [50000, 60000, 75000, 55000],
    'department': ['IT', 'HR', 'IT', 'Sales']
}
df = pd.DataFrame(data)

# Indexing and filtering
it_employees = df[df['department'] == 'IT']
high_earners = df.loc[df['salary'] > 55000, ['name', 'salary']]

# Adding calculated columns
df['annual_bonus'] = df['salary'] * 0.10
df['age_group'] = pd.cut(df['age'], bins=[0, 30, 40, 100], labels=['Young', 'Mid', 'Senior'])

print(df)

2. Data Cleaning & Transformation

Handling missing data (dropna, fillna, interpolate)
Removing duplicates
String operations and text cleaning
Date/time parsing and manipulation
Type conversions and casting
Applying custom functions (apply, map, applymap)

Code Example:

import pandas as pd

# Load data with missing values
df = pd.read_csv('sales_data.csv')

# Handle missing values
df['price'].fillna(df['price'].median(), inplace=True)
df['category'].fillna('Unknown', inplace=True)
df.dropna(subset=['customer_id'], inplace=True)

# Clean text data
df['product_name'] = df['product_name'].str.strip().str.lower()
df['product_name'] = df['product_name'].str.replace('[^a-zA-Z0-9 ]', '', regex=True)

# Convert dates
df['order_date'] = pd.to_datetime(df['order_date'])
df['year'] = df['order_date'].dt.year
df['month'] = df['order_date'].dt.month

# Remove duplicates
df.drop_duplicates(subset=['order_id'], keep='first', inplace=True)

# Apply custom function
def categorize_price(price):
    if price < 50:
        return 'Low'
    elif price < 100:
        return 'Medium'
    else:
        return 'High'

df['price_category'] = df['price'].apply(categorize_price)

3. Aggregation & Grouping

GroupBy operations
Aggregation functions (sum, mean, count, etc.)
Pivot tables and cross-tabulation
Multi-level indexing
Window functions (rolling, expanding)

Code Example:

import pandas as pd

# Sample sales data
df = pd.read_csv('sales.csv')

# GroupBy aggregation
dept_stats = df.groupby('department').agg({
    'salary': ['mean', 'min', 'max'],
    'employee_id': 'count'
})

# Multiple groupby
sales_by_region_product = df.groupby(['region', 'product_category'])['sales'].sum()

# Pivot table
pivot = df.pivot_table(
    values='sales',
    index='product_category',
    columns='quarter',
    aggfunc='sum',
    fill_value=0
)

# Rolling window (moving average)
df['sales_ma_7d'] = df.groupby('product_id')['sales'].transform(
    lambda x: x.rolling(window=7, min_periods=1).mean()
)

# Cumulative sum
df['cumulative_sales'] = df.groupby('product_id')['sales'].cumsum()

4. Data Visualization

Matplotlib basics
Seaborn for statistical plots
Pandas built-in plotting
Customizing plots
Creating dashboards

Code Example:

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Set style
sns.set_style('whitegrid')

# Load data
df = pd.read_csv('sales_data.csv')

# 1. Line plot - Sales trend over time
df.groupby('month')['sales'].sum().plot(kind='line', figsize=(10, 6))
plt.title('Monthly Sales Trend')
plt.xlabel('Month')
plt.ylabel('Total Sales ($)')
plt.show()

# 2. Bar plot - Sales by category
category_sales = df.groupby('category')['sales'].sum().sort_values(ascending=False)
category_sales.plot(kind='bar', figsize=(10, 6))
plt.title('Sales by Category')
plt.xlabel('Category')
plt.ylabel('Total Sales ($)')
plt.xticks(rotation=45)
plt.show()

# 3. Histogram - Price distribution
df['price'].hist(bins=30, figsize=(10, 6))
plt.title('Price Distribution')
plt.xlabel('Price ($)')
plt.ylabel('Frequency')
plt.show()

# 4. Box plot - Salary by department
df.boxplot(column='salary', by='department', figsize=(10, 6))
plt.title('Salary Distribution by Department')
plt.suptitle('')
plt.show()

# 5. Heatmap - Correlation matrix
corr = df[['age', 'salary', 'years_experience']].corr()
sns.heatmap(corr, annot=True, cmap='coolwarm', center=0)
plt.title('Correlation Matrix')
plt.show()

Hands-On Practice

Project 1: Customer Analytics

Analyze customer purchase behavior and segmentation.

Requirements:

Load customer transaction data
Clean and prepare dataset
Calculate RFM (Recency, Frequency, Monetary) metrics
Customer segmentation
Visualize insights
Generate executive summary

Key Skills: Data cleaning, aggregation, visualization

Project 2: Time Series Analysis

Analyze sales trends and forecast future performance.

Requirements:

Load time series data
Handle missing dates
Calculate moving averages
Identify trends and seasonality
Detect anomalies
Create interactive visualizations

Key Skills: Time series operations, rolling windows, plotting

Project 3: Data Quality Report

Build automated data quality assessment tool.

Requirements:

Check for missing values
Identify duplicates
Detect outliers
Validate data types
Generate quality metrics
Export HTML report

Key Skills: Data validation, statistical analysis, reporting

Assessment Criteria

Load and clean real-world datasets efficiently
Perform complex data transformations
Use GroupBy for aggregations
Create insightful visualizations
Handle missing and inconsistent data
Optimize performance for large datasets
Document analysis with clear explanations

Resources

Official Documentation

Pandas Docs - Official documentation
NumPy Docs - NumPy documentation
Matplotlib Docs - Plotting library

Learning Platforms

Kaggle - Free Pandas course
DataCamp - Interactive courses
Python for Data Analysis - Wes McKinney's book

Tools

Jupyter Notebook - Interactive development
Google Colab - Cloud notebooks
Anaconda - Data science distribution

Next Steps

After mastering Pandas, explore:

Scikit-learn - Machine learning
SQL - Database querying
Apache Spark - Big data processing
Tableau/Power BI - Business intelligence tools

Weekly Installs

–

Repository

pluginagentmark…n-python

GitHub Stars

First Seen

–

Security Audits

Gen Agent Trust HubPass SocketPass SnykPass

Pandas数据分析教程：Python数据清洗、转换、可视化与聚合实战指南

🇨🇳中文介绍

Pandas 数据分析

概述

学习目标

核心主题

1. Pandas DataFrames 与 Series

2. 数据清洗与转换

相关 Skills

3. 聚合与分组

4. 数据可视化

实践练习

项目 1：客户分析

项目 2：时间序列分析

项目 3：数据质量报告

评估标准

资源

官方文档

学习平台

工具

后续步骤

🇺🇸English

Pandas Data Analysis

Overview

Learning Objectives

Core Topics

1. Pandas DataFrames & Series

2. Data Cleaning & Transformation

3. Aggregation & Grouping

4. Data Visualization

Hands-On Practice

Project 1: Customer Analytics

Project 2: Time Series Analysis

Project 3: Data Quality Report

Assessment Criteria

Resources

Official Documentation

Learning Platforms

Tools

Next Steps

最新 Skills