Python网页抓取工具：无需API密钥，支持搜索、读取、会话管理和文件下载

web-scraper by liranudi/openclaw-web-scraper

129 周安装量

1 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/liranudi/openclaw-web-scraper --skill web-scraper

Python Web框架自动化数据处理

🇨🇳中文介绍

网页抓取工具

四个脚本，无需 API 密钥。默认所有输出均为 JSON 格式。

依赖项： requests、beautifulsoup4、playwright（需搭配 Chromium）。可选： 用于 PDF 文本提取的 pdfplumber 或 PyPDF2。

安装：pip install requests beautifulsoup4 playwright && playwright install chromium

1. 搜索网页

python3 scripts/google_search.py "query" --pages N --engine ENGINE

--engine — （默认）、或

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

2. 读取页面（一次性）

python3 scripts/read_page.py "https://url" [--max-chars N] [--visible] [--format json|markdown|text] [--no-dismiss]

--format — json（默认）、markdown 或 text
自动关闭 Cookie 同意横幅（使用 --no-dismiss 跳过）

3. 持久化浏览器会话

python3 scripts/browser_session.py open "https://url"              # 打开 + 提取
python3 scripts/browser_session.py navigate "https://other"        # 跳转到新 URL
python3 scripts/browser_session.py extract [--format FMT]          # 重新读取页面
python3 scripts/browser_session.py screenshot [path] [--full]      # 保存截图
python3 scripts/browser_session.py click "Submit"                  # 通过文本/选择器点击
python3 scripts/browser_session.py search "keyword"                # 在页面中搜索文本
python3 scripts/browser_session.py tab new "https://url"           # 打开新标签页
python3 scripts/browser_session.py tab list                        # 列出所有标签页
python3 scripts/browser_session.py tab switch 1                    # 切换到指定索引的标签页
python3 scripts/browser_session.py tab close [index]               # 关闭标签页
python3 scripts/browser_session.py dismiss-cookies                 # 手动关闭 Cookie 提示
python3 scripts/browser_session.py close                           # 关闭浏览器

在打开/导航时自动关闭 Cookie 同意提示
支持多标签页 — 可独立打开、切换、关闭
搜索返回匹配的行及其行号
提取支持 json/markdown/text 输出格式

python3 scripts/download_file.py "https://example.com/doc.pdf" [--output DIR] [--filename NAME]

自动从 URL/响应头检测文件名
PDF 文件：如果安装了 pdfplumber/PyPDF2 则提取文本
返回 {status, path, filename, size_bytes, content_type, extracted_text}

🇺🇸English

Web Scraper

Four scripts, zero API keys. All output is JSON by default.

Dependencies: requests, beautifulsoup4, playwright (with Chromium). Optional: pdfplumber or PyPDF2 for PDF text extraction.

Install: pip install requests beautifulsoup4 playwright && playwright install chromium

1. Search the Web

python3 scripts/google_search.py "query" --pages N --engine ENGINE

--engine — duckduckgo (default), brave, or google
Returns [{title, url, snippet}, ...]

2. Read a Page (one-shot)

python3 scripts/read_page.py "https://url" [--max-chars N] [--visible] [--format json|markdown|text] [--no-dismiss]

--format — json (default), markdown, or text
Auto-dismisses cookie consent banners (skip with --no-dismiss)

3. Persistent Browser Session

python3 scripts/browser_session.py open "https://url"              # Open + extract
python3 scripts/browser_session.py navigate "https://other"        # Go to new URL
python3 scripts/browser_session.py extract [--format FMT]          # Re-read page
python3 scripts/browser_session.py screenshot [path] [--full]      # Save screenshot
python3 scripts/browser_session.py click "Submit"                  # Click by text/selector
python3 scripts/browser_session.py search "keyword"                # Search text in page
python3 scripts/browser_session.py tab new "https://url"           # Open new tab
python3 scripts/browser_session.py tab list                        # List all tabs
python3 scripts/browser_session.py tab switch 1                    # Switch to tab index
python3 scripts/browser_session.py tab close [index]               # Close tab
python3 scripts/browser_session.py dismiss-cookies                 # Manually dismiss cookies
python3 scripts/browser_session.py close                           # Close browser

Cookie consent auto-dismissed on open/navigate
Multiple tabs supported — open, switch, close independently
Search returns matching lines with line numbers
Extract supports json/markdown/text output

4. Download Files

python3 scripts/download_file.py "https://example.com/doc.pdf" [--output DIR] [--filename NAME]

Auto-detects filename from URL/headers
PDFs: extracts text if pdfplumber/PyPDF2 installed
Returns {status, path, filename, size_bytes, content_type, extracted_text}

Weekly Installs

Repository

liranudi/opencl…-scraper

GitHub Stars

First Seen

Mar 5, 2026

Security Audits

Gen Agent Trust HubWarn SocketPass SnykWarn

Installed on

opencode98

gemini-cli98

codex98

kimi-cli98

github-copilot98

amp98

通过 LiteLLM 代理让 Claude Code 对接 GitHub Copilot 运行 | 高级变通方案指南

44,900 周安装