⚠️

重要前提

安装AI Skills的关键前提是：必须科学上网，且开启TUN模式，这一点至关重要，直接决定安装能否顺利完成，在此郑重提醒三遍：科学上网，科学上网，科学上网。查看完整安装教程 →

Python PDF文本提取工具 - 使用pypdf快速从PDF读取文档内容

read-bin-docs by ypares/agent-skills

45 周安装量

24 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/ypares/agent-skills --skill read-bin-docs

Python Web框架文件管理数据处理

🇨🇳中文介绍

文档格式

快速开始：从 PDF 提取文本

需要从 PDF 中提取文本吗？使用以下 Python 代码片段：

from pypdf import PdfReader

reader = PdfReader("document.pdf")
text = "".join(page.extract_text() for page in reader.pages)
print(text)

或者从命令行运行：

uvx --with pypdf python /path/to/extract_pdf_text.py document.pdf

PDF 文本提取

基本用法

from pypdf import PdfReader

# 读取所有页面
reader = PdfReader("file.pdf")
for page in reader.pages:
    text = page.extract_text()
    print(text)

提取特定页面

from pypdf import PdfReader

reader = PdfReader("file.pdf")
# 获取第 1-5 页（索引从 0 开始）
for page in reader.pages[0:5]:
    print(page.extract_text())

使用脚本

此技能包含用于命令行提取：

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

🇺🇸English

Doc Formats

Quick Start: Extract Text from PDF

Need to extract text from a PDF? Use this Python snippet:

from pypdf import PdfReader

reader = PdfReader("document.pdf")
text = "".join(page.extract_text() for page in reader.pages)
print(text)

Or from the command line:

uvx --with pypdf python /path/to/extract_pdf_text.py document.pdf

PDF Text Extraction

Basic Usage

from pypdf import PdfReader

# Read all pages
reader = PdfReader("file.pdf")
for page in reader.pages:
    text = page.extract_text()
    print(text)

Extract Specific Pages

from pypdf import PdfReader

reader = PdfReader("file.pdf")
# Get pages 1-5 (0-indexed)
for page in reader.pages[0:5]:
    print(page.extract_text())

Using the Script

This skill includes scripts/extract_pdf_text.py for command-line extraction:

# Extract all pages to stdout
python extract_pdf_text.py document.pdf

# Extract to file
python extract_pdf_text.py document.pdf --output text.txt

# Extract specific pages
python extract_pdf_text.py document.pdf --pages 1-5
python extract_pdf_text.py document.pdf --pages 1,3,5

Requirements

pypdf : uvx --with pypdf python <script>
Works with most text-based PDFs
Scanned PDFs without OCR won't extract text

Common Issues

"No text extracted" : The PDF may be scanned (image-based) without OCR. OCR support requires additional tools.

"Encoding errors" : pypdf handles most encodings, but some PDFs may have encoding issues. Use page.extract_text(layout=True) for layout-aware extraction if available.

Future : Support for DOCX, XLSX, and other formats coming soon.

Weekly Installs

Repository

ypares/agent-skills

GitHub Stars

First Seen

Jan 24, 2026

Security Audits

Gen Agent Trust HubFail SocketPass SnykPass

Installed on

opencode42

codex41

gemini-cli41

github-copilot40

amp39

cline39