← 返回
未分类 Key

小红书作品爬虫

小红书作品爬取工具。根据关键词爬取小红书热门作品数据,支持按日期范围、排序方式筛选,结果以结构化表格展示。当用户需要爬取小红书作品、查询小红书热门内容、搜索小红书爆款笔记时使用。触发词:小红书爬取、小红书作品、小红书爆款、小红书搜索、小红书热门、小红书笔记查询。
路元亿
未分类 enterprise v1.0.0 100000 Key: 需要
★ 0
Stars
📥 74
下载
💾 0
安装

概述

小红书作品爬取

📝 简介

根据关键词爬取小红书热门作品,支持按日期范围筛选和多种排序方式(相关性、最新、最热),返回笔记标题、作者、互动数据等,结果以结构化表格展示。

✨ 功能特性

功能模块能力描述核心价值
---------------------------
作品爬取关键词搜索小红书作品精准发现高热度内容
日期筛选支持按日期范围筛选定位特定时间段的热门内容
多种排序相关性/最新/最热三种排序灵活满足不同筛选需求
互动数据返回收藏、分享、评论、点赞等全面评估作品热度
报告导出CSV(Excel兼容)+ HTML可视化报告本地离线查看与分享

🔑 鉴权

  • 获取 API Key:前往 红狐hub
  • 配置方式1:写入 ~/.openclaw/openclaw.json{ "env": { "REDFOX_API_KEY": "ak_xxxx..." } }
  • 配置方式2:终端执行 export REDFOX_API_KEY="ak_xxxx..."

⚙️ 工作流程

Step 1: 🔍 用户意图理解

从用户输入中提取以下参数:

参数提取规则默认值
-----------------------
keyword用户提到的搜索关键词空字符串 ""
startDate起始日期,解析为 YYYY-MM-DD30天前(脚本自动计算)
endDate结束日期,解析为 YYYY-MM-DD今天(脚本自动计算)
sortType排序方式,见下表"_0"

sortType 枚举:

含义触发词
------------------
_0相关性排序(默认)默认排序、综合排序、相关
_2最新(按发布时间排序)最新、 newest、按时间
_4最热(按互动数排序)最热、最火、hottest、按热度

时间解析规则:

用户输入解析方式示例
------------------------
绝对日期解析为 YYYY-MM-DD6月1号2026-06-01
相对日期基于当前日期计算最近7天 → start=7天前, end=今天
日期范围分别解析为 startDate/endDate5月30日到6月2日
未提供时间不传 --start-date/--end-date,脚本默认查最近30天不传参数

Step 1.5: 🧠 关键词类型判断(⚠️ 调用脚本前必须执行)

核心规则:泛化词必须先询问再查询,具体词直接查询。

关键词分类:

类型特征处理方式
----------------------
空关键词用户未提供关键词(如「最近热门笔记」)直接查询全站热门,keyword 传 ""
细分词含具体场景/属性/人群修饰(如「减脂餐」「小个子穿搭」「生酮饮食」)直接调用脚本
泛化词纯大类词,无修饰成分(如「美食」「穿搭」「美妆」)必须先推荐细分词,等待用户回复后再查询

泛化词处理流程(⚠️ 禁止直接调用脚本!):

第一步:生成 10 个细分词推荐

生成原则:

  • 词的大小适中,避免过细(查不到数据)或过泛
  • 必须覆盖不同场景:趋势词、人群词、场景词、意图词各 2-3 个

输出示例:

> 我识别到「美食」是较大的分类,推荐以下细分方向:

> 家常菜、烘焙甜点、减脂餐、早餐、宵夜、地方菜系、懒人食谱、宝宝辅食、火锅、咖啡饮品

> 回复「拓展」将同时搜索这 10 个词,回复「不拓展」将继续搜索「美食」

第二步:等待用户回复(禁止在同一次对话中继续执行脚本)

  • 用户回复「拓展」 → 调用脚本搜索 10 个细分词(逗号分隔)
  • 用户回复「不拓展」 → 调用脚本搜索原关键词

Step 2: 📡 调用脚本

# 基础调用(仅关键词,日期默认最近30天,排序默认相关性)
python3 ~/.qoderwork/skills/xiaohongshu-crawler/scripts/crawl_xhs.py "<关键词>"

# 完整参数(仅传入非空的时间/排序参数)
python3 ~/.qoderwork/skills/xiaohongshu-crawler/scripts/crawl_xhs.py "<关键词>" --start-date <startDate> --end-date <endDate> --sort-type <_0|_2|_4>

脚本返回 JSON,包含 articles 数组、total 总数,以及以下辅助字段:

字段类型说明
------------------
articles数组作品数据(主要展示内容)
relatedSearches数组相关搜索词推荐
latestHotArticles数组近期热门笔记推荐(辅助内容,默认展示 10 条)
hotTopics数组热门话题标签(仅供参考,不在对话中展示)

每条作品字段(脚本内部字段 ↔ 接口原始字段):

脚本字段接口原始字段说明
----------------------------------
titletitle笔记标题
authorauthorNickname作者昵称
collect_countcollectedCount收藏数
share_countsharedCount分享数
comment_countcommentsCount评论数
like_countlikedCount点赞数
publish_timecreateTime发布时间
work_urlshareInfoLink作品链接
covercover封面图 URL
descdesc笔记描述/话题标签
author_fansauthorFans作者粉丝数
interactive_countinteractiveCount互动总数
work_idid作品 ID

Step 3: 📊 结果展示

⚠️ 总数校验:展示的 N 必须取自 articles 数组长度,禁止人工计数。

⚠️ 强制输出规则:直接读取脚本返回的 JSON 数据,按对应策略输出,禁止添加额外分析或建议。

情况 A:articles ≥ 20

A1. 输出查询范围:

> 📊 关键词「XXX」共爬取到 N 条小红书作品,以下是详细数据:

A2. 输出风控提示(紧跟 A1 之后、表格之前):

> !!!受小红书风控规则限制,部分作品链接可能无法正常跳转,您可复制对应作品标题前往小红书搜索查看,感谢理解🙇‍♀️🙇‍♀️

A3. 展示前 20 条表格:

| # | 笔记标题 | 作者 | 收藏 | 分享 | 评论 | 点赞 | 发布时间 |
|---|---------|------|------|------|------|------|----------|
| 1 | [标题](work_url) | 作者名 | 1.2w | 3.5w | 8000 | 5.6w | 06-02 19:55 |

A4. 提示剩余数据:

> 以上展示了前 20 条数据,还剩 M 条未展示。回复「查看全部」展开剩余数据。

A5. 推荐细分赛道(基于当前关键词生成 10 个相关细分方向词):

> 如需深入探索某个细分方向,可以从以下关键词中选择:

> {细分词1}、{细分词2}、...、{细分词10}

> 回复具体关键词,我将为您查询。

情况 B:0 < articles < 20

B1. 输出查询范围 + 数据较少提示:

> 📊 关键词「XXX」共爬取到 N 条小红书作品。

> 💡 当前关键词在该时间段结果较少,您可以尝试更换更短的关键词或扩大时间范围。

B2. 输出风控提示:

> !!!受小红书风控规则限制,部分作品链接可能无法正常跳转,您可复制对应作品标题前往小红书搜索查看,感谢理解🙇‍♀️🙇‍♀️

B3. 展示全部表格(同 A3 格式)。

B4. 推荐细分赛道(同 A5)。

情况 C:articles = 0

> 😔 抱歉,未找到与「XXX」相关的小红书作品,请尝试更换关键词或调整时间范围。

C1. 推荐搜索词(从 relatedSearches 字段提取,以加粗形式展示):

> 🔍 推荐搜索词:词1、词2、词3...

> ⚠️ 若 relatedSearches 为空则不展示此条。

C2. 推荐热门笔记(从 latestHotArticles 字段取前 10 条,表格不含评分字段):

> 💡 我们为您推荐了近期的热门笔记供参考:

| # | 笔记标题 | 作者 | 收藏 | 分享 | 评论 | 点赞 | 发布时间 |
|---|---------|------|------|------|------|------|----------|
| 1 | [标题](work_url) | 作者名 | 1.2w | 3.5w | 8000 | 5.6w | 06-02 19:55 |

> ⚠️ 若 latestHotArticles 为空则不展示此块。

C3. 推荐热门赛道(从 hotTopics 字段提取;若为空则使用以下默认列表):

> 📈 您还可以尝试搜索以下热门赛道:

> 穿搭、美食、彩妆、影视、职场、萌宠、家居、旅行、运动、科技、互联网、医疗保健、教育、亲子育儿、生活

格式化规则(适用于所有情况):

  • 数字 < 10000 直接展示;≥ 10000 用 x.xw 格式
  • publish_time 转为 MM-DD HH:MM;无论是否指定时间范围均展示
  • 标题超 30 字截断加 ...,使用 标题 链接格式
  • 标题为空时显示“-”

Step 4: 📦 更多操作

展示完结果后,末尾追加以下内容:

⚡ 更多操作
• 是否需要下载 Excel 文件或 HTML 可视化报告?便于您在浏览器中打开查看
• 本次共 N 条作品,是否需要查看剩余 M 条?

> ⚠️ 第二条仅在 articles > 20 时展示,N 为总数,M = N - 20。

4.1 下载报告

将爬取结果 JSON 写入临时文件,再调用报告生成脚本:

echo '<JSON数据>' > /tmp/xhs_crawl_data.json
python3 ~/.qoderwork/skills/xiaohongshu-crawler/scripts/generate_report.py "<关键词>" \
  --input /tmp/xhs_crawl_data.json --format <csv|html|both>
--format生成文件告知用户示例
----------------------------------
csvCSV(Excel 兼容)✅ Excel(CSV)文件已生成:~/Downloads/XhsCrawl/小红书作品_关键词_时间戳.csv
htmlHTML 可视化报告✅ HTML 可视化报告已生成:~/Downloads/XhsCrawl/小红书作品_关键词_时间戳.html
bothCSV + HTML同时告知两个文件路径

4.2 用户回复「查看全部」

直接展示剩余数据(从第 21 条开始),使用与 A3 相同的表格格式,不再追加「更多操作」提示。

版本历史

共 1 个版本

  • v1.0.0 Initial release 当前
    2026-06-05 15:23 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

小红书笔记优化助手

u_b1ef8fd0
小红书笔记优化助手工具,基于全网爆款数据对用户文案进行多维度评分并给出改进建议;当用户需要评估文案质量、获取优化建议时使用
★ 0 📥 41

公众号搜索爬虫

u_b1ef8fd0
公众号搜索爬虫 — 通过关键词搜索微信公众号文章,终端表格展示(标题/作者/阅读/点赞/分享/收藏/发布时间/文章链接),自动导出 CSV 并生成交互式 HTML 报告。当用户需要搜索、爬取或浏览公众号文章时使用;也适用于行业热点追踪、竞品
★ 0 📥 44

抖音作品查询

u_b1ef8fd0
抖音爆款作品查询工具。根据关键词搜索抖音热门爆款作品,支持按日期范围筛选,结果以结构化表格展示。当用户查找抖音热门内容、搜索抖音爆款视频、查询抖音作品数据时使用。触发词:抖音爆款、抖音热门、抖音热榜、抖音作品查询、抖音搜索、爆款视频、热门视
★ 0 📥 82