重要前提
安装AI Skills的关键前提是:必须科学上网,且开启TUN模式,这一点至关重要,直接决定安装能否顺利完成,在此郑重提醒三遍:科学上网,科学上网,科学上网。查看完整安装教程 →
read-bin-docs by ypares/agent-skills
npx skills add https://github.com/ypares/agent-skills --skill read-bin-docs需要从 PDF 中提取文本吗?使用以下 Python 代码片段:
from pypdf import PdfReader
reader = PdfReader("document.pdf")
text = "".join(page.extract_text() for page in reader.pages)
print(text)
或者从命令行运行:
uvx --with pypdf python /path/to/extract_pdf_text.py document.pdf
from pypdf import PdfReader
# 读取所有页面
reader = PdfReader("file.pdf")
for page in reader.pages:
text = page.extract_text()
print(text)
from pypdf import PdfReader
reader = PdfReader("file.pdf")
# 获取第 1-5 页(索引从 0 开始)
for page in reader.pages[0:5]:
print(page.extract_text())
此技能包含 用于命令行提取:
广告位招租
在这里展示您的产品或服务
触达数万 AI 开发者,精准高效
scripts/extract_pdf_text.py# 将所有页面提取到标准输出
python extract_pdf_text.py document.pdf
# 提取到文件
python extract_pdf_text.py document.pdf --output text.txt
# 提取特定页面
python extract_pdf_text.py document.pdf --pages 1-5
python extract_pdf_text.py document.pdf --pages 1,3,5
uvx --with pypdf python <script>"未提取到文本" : PDF 可能是未经 OCR 处理的扫描版(基于图像)。OCR 支持需要额外的工具。
"编码错误" : pypdf 能处理大多数编码,但某些 PDF 可能存在编码问题。如果可用,请使用 page.extract_text(layout=True) 进行支持布局的提取。
未来计划 : 即将支持 DOCX、XLSX 及其他格式。
每周安装次数
45
代码仓库
GitHub 星标数
24
首次出现
2026年1月24日
安全审计
已安装于
opencode42
codex41
gemini-cli41
github-copilot40
amp39
cline39
Need to extract text from a PDF? Use this Python snippet:
from pypdf import PdfReader
reader = PdfReader("document.pdf")
text = "".join(page.extract_text() for page in reader.pages)
print(text)
Or from the command line:
uvx --with pypdf python /path/to/extract_pdf_text.py document.pdf
from pypdf import PdfReader
# Read all pages
reader = PdfReader("file.pdf")
for page in reader.pages:
text = page.extract_text()
print(text)
from pypdf import PdfReader
reader = PdfReader("file.pdf")
# Get pages 1-5 (0-indexed)
for page in reader.pages[0:5]:
print(page.extract_text())
This skill includes scripts/extract_pdf_text.py for command-line extraction:
# Extract all pages to stdout
python extract_pdf_text.py document.pdf
# Extract to file
python extract_pdf_text.py document.pdf --output text.txt
# Extract specific pages
python extract_pdf_text.py document.pdf --pages 1-5
python extract_pdf_text.py document.pdf --pages 1,3,5
uvx --with pypdf python <script>"No text extracted" : The PDF may be scanned (image-based) without OCR. OCR support requires additional tools.
"Encoding errors" : pypdf handles most encodings, but some PDFs may have encoding issues. Use page.extract_text(layout=True) for layout-aware extraction if available.
Future : Support for DOCX, XLSX, and other formats coming soon.
Weekly Installs
45
Repository
GitHub Stars
24
First Seen
Jan 24, 2026
Security Audits
Gen Agent Trust HubFailSocketPassSnykPass
Installed on
opencode42
codex41
gemini-cli41
github-copilot40
amp39
cline39
Caveman Compress:AI文件压缩工具,优化Claude输入令牌,提升自然语言处理效率
6,200 周安装