小红书搜索总结工具 - 自动化爬取小红书内容并生成多模态分析报告

xiaohongshu-search-summarizer by piekill/xiaohongshu-summarizer-skill

129 周安装量

1 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/piekill/xiaohongshu-summarizer-skill --skill xiaohongshu-search-summarizer

内容创作自动化数据分析

🇨🇳中文介绍

小红书搜索与内容总结

此技能自动化从小红书提取高质量多模态内容（文本 + 图片）的过程，并主动协助您为用户生成一份深度整合、分析性的最终报告。由于小红书具有激进的防爬虫机制，直接发送 HTTP 请求或简单的爬取通常会导致 404 错误或被封禁。此技能通过在有头浏览器窗口中模拟真实用户使用 playwright-cli，原生地绕过了这些限制。

它分两个不同的阶段运行：

第一阶段：子代理数据收集

在有头浏览器中模拟在小红书上搜索关键词。
滑动图片滑块，以完全加载前 N 篇帖子中的所有懒加载图片。
提取标题、描述、热门评论和所有高分辨率图片。
将这些图片下载到本地目录，并生成原始数据文档（[关键词]_raw_data.md）。

第二阶段：AI 多模态合成（您的工作）

您必须使用您的文件读取能力来读取 [关键词]_raw_data.md 文件。
在原始数据的 Markdown 文件中，您会找到指向图片文件的路径。您必须对这些图片文件路径使用您的文件读取/视觉能力，以实际摄取并"看到"它们的视觉内容。如果您跳过此步骤，您只是在读取文件名，而不是图片本身！
您分析文本，总结真正有用的评论（丢弃诸如"私信我"之类的噪音），并解读您刚刚查看的图片的语义内容（例如图表、指南、逐步的 UI 流程）。
您将所有内容汇编成一份精美合成、单一的综合性报告，而不仅仅是帖子的线性列表。

依赖项

playwright-cli（必须在路径中可用）

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

步骤 1：运行提取脚本

执行 scripts/run.sh 中的包装脚本。它接受以下参数：

/bin/bash <skill_dir>/scripts/run.sh "YOUR KEYWORD" <MAX_POSTS> <OUTPUT_DIRECTORY>

YOUR KEYWORD : 要在小红书上查找的搜索词。
<MAX_POSTS>: （可选，默认值 = 10）要扫描的热门帖子数量。
<OUTPUT_DIRECTORY>: （可选，默认值 = ./）保存原始数据和图片的目录。

/bin/bash ~/.claude/skills/xiaohongshu-search-summarizer/scripts/run.sh "openclaw使用场景" 10 "./xhs_report_openclaw_scenarios"

步骤 2：读取原始数据与图片

一旦 bash 脚本成功完成，导航到 OUTPUT_DIRECTORY 并使用您的文件读取能力来摄取生成的 [关键词]_raw_data.md 文件。

在此文件中，您将找到描述、评论以及指向 post_X_img_Y.webp 或 post_X_img_Y.jpg 的文件路径。

步骤 3：合成与总结

这是最关键的一步。 不要只是将原始的 Markdown 文件返回给用户。相反，请撰写一份经过润色的综合性 Markdown 报告，以逻辑方式重新组织信息，同时保留高水平的细节。

遵循以下严格的汇编规则：

不要单独列出帖子（例如，避免"帖子 1: ... 帖子 2: ..."）。
阅读图片： 您必须对原始数据目录中找到的 .webp 或 .jpg 图片文件使用您的文件读取和视觉能力，以解读其内容。
详细且全面的合成： 提供一份高度详细的总结，包含不同帖子中发现的各种观点、细微差别和具体示例。避免过度总结或丢失重要上下文；保留信息的丰富性和多样性。
提取并合并主题： 按概念、步骤、重复出现的主题或优缺点对想法进行分组。
评估评论： 将有价值的评论中的见解直接合并到核心叙述中。跳过无用或重复的评论，但保留评论区中不同的意见或有帮助的反驳论点。
将图片融入上下文： 将最相关和高质量的图片直接嵌入到您最终报告的行文中，以支持正在进行的分析观点。根据您通过视觉能力看到的内容描述其视觉含义。
保存到 OUTPUT_DIRECTORY： 使用您的文件写入能力，将您精美汇编的最终 Markdown 报告直接保存到与原始数据相同的 <OUTPUT_DIRECTORY> 中（例如，<OUTPUT_DIRECTORY>/[关键词]_synthesis.md），并将路径提供给用户。

如果在浏览器调用期间遇到 404 Not Found 或"元素不可见"错误：

请注意，小红书可能会要求登录验证。如果网站暂停等待登录，请指示用户检查 playwright-cli 浏览器窗口并手动执行必要的身份验证，然后重试脚本。

Python PDF处理教程：合并拆分、提取文本表格、创建PDF文件

65,000 周安装

小红书搜索总结工具 - 自动化爬取小红书内容并生成多模态分析报告

🇨🇳中文介绍

小红书搜索与内容总结

第一阶段：子代理数据收集

第二阶段：AI 多模态合成（您的工作）

依赖项

相关 Skills

使用说明

步骤 1：运行提取脚本

步骤 2：读取原始数据与图片

步骤 3：合成与总结

错误处理

最新 Skills