CSV/Excel合并工具 - 智能列匹配与数据去重 | 多文件合并解决方案

csv-excel-merger by onewave-ai/claude-skills

392 周安装量

74 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/onewave-ai/claude-skills --skill csv-excel-merger

自动化数据分析数据处理

🇨🇳中文介绍

CSV/Excel 合并工具

智能合并多个 CSV 或 Excel 文件，具备自动列匹配和数据去重功能。

使用说明

当用户需要合并 CSV 或 Excel 文件时：

分析输入文件： * 需要合并多少个文件？ * 文件格式是什么（CSV、Excel、TSV）？ * 文件是直接提供的还是需要从磁盘读取？ * 各文件中的列名是否相同？ * 主键（唯一标识符）是什么？
检查文件结构： * 读取每个文件的表头 * 识别列名和数据类型 * 检测编码（UTF-8、Latin-1 等） * 检查缺失的列 * 查找重复的列名
制定合并策略：

列匹配： * 精确名称匹配："email" = "email" * 不区分大小写："Email" = "email" * 模糊匹配："E-mail" ≈ "email" * 常见模式： * "first_name", "firstname", "First Name" → "first_name" * "phone", "phone_number", "tel" → "phone" * "email", "e-mail", "email_address" → "email"

冲突解决（当同一记录出现在多个文件中时）： * 保留第一个：使用第一个文件中的值 * 保留最后一个：使用最后一个文件中的值（最新的） * 保留最长的：使用最完整的值 * 人工审核：标记冲突供用户审查 * 合并：合并非冲突字段

去重： * 根据主键识别重复行 * 选项：保留第一个、保留最后一个、保留全部、合并值 * 跟踪每一行的来源文件 4. 执行合并：

     # 示例合并逻辑
     import pandas as pd
     
     # 读取文件
     df1 = pd.read_csv('file1.csv')
     df2 = pd.read_csv('file2.csv')
     
     # 规范化列名
     df1.columns = df1.columns.str.lower().str.strip()
     df2.columns = df2.columns.str.lower().str.strip()
     
     # 映射相似的列
     column_mapping = {
         'firstname': 'first_name',
         'e_mail': 'email',
         # ...
     }
     df2 = df2.rename(columns=column_mapping)
     
     # 合并
     merged = pd.concat([df1, df2], ignore_index=True)
     
     # 去重
     merged = merged.drop_duplicates(subset=['email'], keep='last')
     
     # 保存
     merged.to_csv('merged_output.csv', index=False)

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

相关 Skills

FlyClaw：零登录航班聚合查询工具，Python实现多源航班信息与价格搜索

4,000,000 周安装

Azure RBAC 权限管理工具：查找最小角色、创建自定义角色与自动化分配

101,200 周安装

Azure Data Explorer (Kusto) 查询技能：KQL数据分析、日志遥测与时间序列处理

100,500 周安装

专业SEO审计工具：全面网站诊断、技术SEO优化与页面分析指南

58,700 周安装

     📊 CSV/EXCEL MERGER REPORT
     
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
     📁 INPUT FILES
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
     
     File 1: contacts_jan.csv
       Rows: 1,245
       Columns: 8 (name, email, phone, company, ...)
     
     File 2: contacts_feb.csv
       Rows: 987
       Columns: 9 (firstname, lastname, email, mobile, ...)
     
     File 3: leads_export.xlsx
       Rows: 2,103
       Columns: 12 (full_name, email_address, phone, ...)
     
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
     🔄 COLUMN MAPPING
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
     
     Unified Schema:
     • first_name ← [firstname, first name, fname]
     • last_name ← [lastname, last name, lname]
     • email ← [email, e-mail, email_address]
     • phone ← [phone, mobile, phone_number, tel]
     • company ← [company, organization, org]
     • title ← [title, job_title, position]
     • source ← [file origin tracking]
     
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
     🔍 MERGE ANALYSIS
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
     
     Total rows before merge: 4,335
     Duplicate records found: 892
     Conflicts detected: 47
     
     Deduplication Strategy: Keep most recent (by source file date)
     Primary Key: email
     
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
     ⚠️ CONFLICTS
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
     
     Record: john.doe@example.com
       File 1 phone: (555) 123-4567
       File 2 phone: (555) 987-6543
       Resolution: Kept most recent (File 2)
     
     [List top 10 conflicts]
     
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
     ✅ MERGE RESULTS
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
     
     Output File: merged_contacts.csv
     Total Rows: 3,443
     Columns: 7
     Duplicates Removed: 892
     
     Breakdown by Source:
     • contacts_jan.csv: 1,245 rows (398 unique)
     • contacts_feb.csv: 987 rows (521 unique)
     • leads_export.xlsx: 2,103 rows (2,524 unique)
     
     Data Quality:
     • Email completeness: 98.2%
     • Phone completeness: 87.5%
     • Company completeness: 91.3%
     
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
     💡 RECOMMENDATIONS
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
     
     • Review 47 conflict records manually
     • Standardize phone number format
     • Fill missing company names (8.7% incomplete)
     • Export conflicts to: conflicts_review.csv

🇺🇸English

CSV/Excel Merger

Intelligently merge multiple CSV or Excel files with automatic column matching and data deduplication.

Instructions

When a user needs to merge CSV or Excel files:

Analyze Input Files :
- How many files need to be merged?
- What format (CSV, Excel, TSV)?
- Are the files provided or need to be read from disk?
- Do columns have the same names across files?
- What is the primary key (unique identifier)?
Inspect File Structures :
- Read headers from each file
- Identify column names and data types
- Detect encoding (UTF-8, Latin-1, etc.)
- Check for missing columns
- Look for duplicate column names
Create Merge Strategy :

Column Matching :

 * Exact name match: "email" = "email"
 * Case-insensitive: "Email" = "email"
 * Fuzzy match: "E-mail" ≈ "email"
 * Common patterns: 
   * "first_name", "firstname", "First Name" → "first_name"
   * "phone", "phone_number", "tel" → "phone"
   * "email", "e-mail", "email_address" → "email"

Conflict Resolution (when same record appears in multiple files):

 * **Keep first** : Use value from first file
 * **Keep last** : Use value from last file (most recent)
 * **Keep longest** : Use most complete value
 * **Manual review** : Flag conflicts for user review
 * **Merge** : Combine non-conflicting fields

Deduplication :

 * Identify duplicate rows based on primary key
 * Options: keep first, keep last, keep all, merge values
 * Track source file for each row

4. Perform Merge :

     # Example merge logic
     import pandas as pd
     
     # Read files
     df1 = pd.read_csv('file1.csv')
     df2 = pd.read_csv('file2.csv')
     
     # Normalize column names
     df1.columns = df1.columns.str.lower().str.strip()
     df2.columns = df2.columns.str.lower().str.strip()
     
     # Map similar columns
     column_mapping = {
         'firstname': 'first_name',
         'e_mail': 'email',
         # ...
     }
     df2 = df2.rename(columns=column_mapping)
     
     # Merge
     merged = pd.concat([df1, df2], ignore_index=True)
     
     # Deduplicate
     merged = merged.drop_duplicates(subset=['email'], keep='last')
     
     # Save
     merged.to_csv('merged_output.csv', index=False)

5. Format Output :

     📊 CSV/EXCEL MERGER REPORT
     
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
     📁 INPUT FILES
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
     
     File 1: contacts_jan.csv
       Rows: 1,245
       Columns: 8 (name, email, phone, company, ...)
     
     File 2: contacts_feb.csv
       Rows: 987
       Columns: 9 (firstname, lastname, email, mobile, ...)
     
     File 3: leads_export.xlsx
       Rows: 2,103
       Columns: 12 (full_name, email_address, phone, ...)
     
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
     🔄 COLUMN MAPPING
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
     
     Unified Schema:
     • first_name ← [firstname, first name, fname]
     • last_name ← [lastname, last name, lname]
     • email ← [email, e-mail, email_address]
     • phone ← [phone, mobile, phone_number, tel]
     • company ← [company, organization, org]
     • title ← [title, job_title, position]
     • source ← [file origin tracking]
     
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
     🔍 MERGE ANALYSIS
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
     
     Total rows before merge: 4,335
     Duplicate records found: 892
     Conflicts detected: 47
     
     Deduplication Strategy: Keep most recent (by source file date)
     Primary Key: email
     
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
     ⚠️ CONFLICTS
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
     
     Record: john.doe@example.com
       File 1 phone: (555) 123-4567
       File 2 phone: (555) 987-6543
       Resolution: Kept most recent (File 2)
     
     [List top 10 conflicts]
     
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
     ✅ MERGE RESULTS
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
     
     Output File: merged_contacts.csv
     Total Rows: 3,443
     Columns: 7
     Duplicates Removed: 892
     
     Breakdown by Source:
     • contacts_jan.csv: 1,245 rows (398 unique)
     • contacts_feb.csv: 987 rows (521 unique)
     • leads_export.xlsx: 2,103 rows (2,524 unique)
     
     Data Quality:
     • Email completeness: 98.2%
     • Phone completeness: 87.5%
     • Company completeness: 91.3%
     
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
     💡 RECOMMENDATIONS
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
     
     • Review 47 conflict records manually
     • Standardize phone number format
     • Fill missing company names (8.7% incomplete)
     • Export conflicts to: conflicts_review.csv

6. Handle Special Cases :

Multiple Primary Keys :

 * Use compound keys: (email + company)
 * Offer options when ambiguous

Different Data Types :

 * Convert dates to standard format
 * Normalize phone numbers
 * Standardize country codes
 * Clean whitespace and casing

Missing Columns :

 * Fill with empty values
 * Flag missing data
 * Offer to create new columns

Large Files :

 * Use chunking for files > 100MB
 * Show progress indicator
 * Estimate memory usage

7. Generate Code : Provide Python/pandas script that:

 * Reads all files
 * Performs intelligent column matching
 * Deduplicates based on strategy
 * Resolves conflicts
 * Saves merged output
 * Generates detailed report

8. Export Options :

 * CSV (UTF-8)
 * Excel (.xlsx)
 * JSON
 * SQL INSERT statements
 * Parquet (for large datasets)

Example Triggers

"Merge these three CSV files"
"Combine multiple Excel sheets into one file"
"Deduplicate and merge customer data"
"Join spreadsheets with different column names"
"Consolidate contact lists from different sources"

Best Practices

Column Matching :

Use fuzzy matching for similar names
Maintain original column name mapping report
Allow manual override of auto-matching

Data Quality :

Trim whitespace
Standardize formats (phone, email, dates)
Detect and flag invalid data
Preserve data types

Performance :

Use chunking for large files
Process in batches
Show progress for long operations
Optimize memory usage

Transparency :

Log all merge decisions
Track source file for each row
Report conflicts and resolutions
Generate detailed merge report

Output Quality

Ensure merges:

Intelligently match columns
Handle different schemas
Deduplicate properly
Preserve data integrity
Flag conflicts for review
Generate comprehensive report
Maintain data quality
Track data lineage (source)
Handle edge cases gracefully
Provide validation statistics

Generate clean, deduplicated merged files with full transparency and data quality checks.

Weekly Installs

392

Repository

onewave-ai/claude-skills

GitHub Stars

First Seen

Jan 24, 2026

Security Audits

Gen Agent Trust HubPass SocketPass SnykPass

Installed on

opencode351

gemini-cli337

codex335

cursor329

github-copilot323

kimi-cli305