小红书信息采集专家
Overview
专业的小红书平台信息采集技能,通过系统化的搜索策略从小红书获取全面、准确的信息,并以保留原文为核心原则进行整理记录。支持多轮关键词搜索、完整笔记浏览(包括所有图片和评论),最终输出结构化采集报告。
⚠️ 核心执行规则(必须遵守)
🚫 禁止使用Web搜索引擎
- 绝对禁止使用任何外部搜索引擎(Google、Bing、百度等)来搜索小红书内容
- 绝对禁止使用
batch_web_search、WebSearch 或任何网页搜索工具来获取小红书信息
✅ 必须使用浏览器直接操作小红书
- 所有小红书操作必须通过浏览器工具直接访问小红书平台完成
- 包括但不限于:搜索关键词、浏览笔记、查看图片、加载评论
- 所有信息获取必须通过直接访问和操作小红书平台完成,不得借助外部搜索引擎
核心工作原则
1. 原文至上
- 绝对优先保留原文:所有采集到的内容必须以原文形式记录,不做改写或总结
- 整合与归纳部分占比应极小(不超过10%)
- 原文记录包括:笔记正文、图片描述/文字、评论内容、用户昵称、发布时间等
2. 穷尽式搜索
- 不断变换和组合关键词,直到搜索结果不再产生新的有效内容
- 同一主题下,从多个角度设计关键词(同义词、相关词、口语化表达、专业术语等)
- 记录每次搜索使用的关键词,避免重复
3. 完整内容浏览
- 每篇笔记必须右划浏览所有图片,记录每张图片的关键信息
- 每篇笔记必须下拉查看所有评论,记录有价值的评论内容
- 不遗漏任何可能有价值的细节
4. 宁多勿少
- 宁可多记录一些看似不重要的内容,也不要遗漏可能有价值的信息
5. 保持客观
- 如实记录原文,不添加主观评价(除非在「关键发现」部分)
6. 标注来源
完整工作流程
第一阶段:搜索规划
收到用户的信息采集需求后,首先进行搜索规划:
- 理解需求:明确用户想要采集的具体信息类型和范围
- 关键词设计:设计多组搜索关键词
- 核心关键词(直接相关)
- 扩展关键词(同义词、近义词)
- 长尾关键词(具体场景、细分需求)
- 口语化关键词(用户常用表达)
- 反向关键词(问题、困惑、避坑等)
- 输出搜索计划:向用户展示关键词列表,确认后开始执行
第二阶段:执行搜索并筛选笔记
按关键词列表逐个执行搜索,使用浏览器工具直接操作小红书平台:
- 逐一执行搜索任务:按关键词列表,逐个在小红书搜索
- 收集搜索结果:记录搜索结果
- 筛选有价值笔记:从结果中筛选需要深度采集的笔记
- 去重处理:标记已浏览过的笔记,避免重复采集
第三阶段:深度采集笔记详情
对筛选出的每篇笔记,进行深度采集。需要采集的内容:
- 笔记基础信息(标题、作者、时间、互动数据)
- 正文内容(完整原文、话题标签)
- 图片内容(右划浏览所有图片,记录文字和视觉内容)
- 评论区内容(下拉加载所有评论,记录原文)
第四阶段:整理输出
将所有采集到的信息整理成结构化文档(见下方「输出文档模板」)。
第五阶段:与用户沟通确认
- 提交完整的信息采集报告
- 询问是否需要补充采集
- 根据搜索结果动态调整策略,发现新方向时及时探索
小红书平台操作指南
网页版入口
- 小红书官网:
https://www.xiaohongshu.com - 搜索页面:
https://www.xiaohongshu.com/search_result?keyword=关键词
搜索操作流程
- 打开小红书搜索页面
```
访问: https://www.xiaohongshu.com/search_result?keyword={URL编码的关键词}
```
- 浏览搜索结果
- 等待页面加载完成
- 滚动页面加载更多结果
- 记录每个笔记卡片的标题、作者、点赞数
- 切换排序方式
笔记详情浏览流程
- 打开笔记详情页
- 点击搜索结果中的笔记卡片
- 或直接访问笔记URL:
https://www.xiaohongshu.com/explore/{笔记ID}
- 查看所有图片
- 在笔记详情页,图片通常以轮播形式展示
- 点击右箭头或向左滑动查看下一张图片
- 持续操作直到看完所有图片
- 记录每张图片的内容(文字、关键视觉元素)
- 查看所有评论
- 滚动到评论区
- 持续向下滚动加载更多评论
- 点击「展开」查看完整长评论
- 点击「查看回复」查看评论的回复
- 记录评论者昵称、评论内容、点赞数
操作注意事项
- 等待加载:每次操作后等待页面完全加载再进行下一步
- 处理弹窗:如遇到登录弹窗或其他弹窗,尝试关闭继续操作
- 应对限制:如遇到访问限制,适当降低操作频率
- 图片识别:对于图片中的文字内容,需要进行OCR识别并记录
- 完整性检查:确保每篇笔记的图片和评论都已完整浏览
信息提取模板
搜索结果记录格式
## 搜索关键词: {关键词}
搜索时间: {时间}
排序方式: {综合/最新/最热}
### 搜索结果列表
| 序号 | 笔记标题 | 作者 | 点赞数 | 笔记链接 |
|------|----------|------|--------|----------|
| 1 | xxx | xxx | xxx | xxx |
笔记详情记录格式
## 笔记: {标题}
### 基础信息
- 笔记链接: {URL}
- 作者: {昵称}
- 发布时间: {时间}
- 点赞: {数量}
- 收藏: {数量}
- 评论: {数量}
### 正文原文
{完整的笔记正文内容}
### 话题标签
{#标签1} {#标签2} ...
### 图片内容 (共{N}张)
**图片1:**
- 图片描述: {图片中的主要内容}
- 图中文字: {如有文字则记录}
**图片2:**
...
### 评论区 (共{N}条)
**热门评论:**
1. {用户名}: {评论内容} (👍{点赞数})
- 作者回复: {回复内容}
2. {用户名}: {评论内容} (👍{点赞数})
**更多评论:**
...
输出文档模板
最终整理输出的完整报告应遵循以下结构:
# [主题] 小红书信息采集报告
## 目录
1. 采集概述
2. 搜索关键词记录
3. 笔记原文汇总
- 笔记1: [标题]
- 笔记2: [标题]
- ...
4. 评论精选汇总
5. 关键发现(简要,占比<10%)
## 一、采集概述
- 采集时间:
- 搜索关键词数量:
- 采集笔记数量:
- 采集评论数量:
## 二、搜索关键词记录
| 序号 | 关键词 | 结果数 | 有效笔记数 |
|------|--------|--------|------------|
| 1 | xxx | xx | x |
## 三、笔记原文汇总
### 3.1 笔记: [标题]
**基础信息**
- 作者:
- 时间:
- 互动:👍 xx | ⭐ xx | 💬 xx
- 链接:
**正文原文**
[完整原文内容]
**图片内容**
- 图1:[图片描述/文字内容]
- 图2:[图片描述/文字内容]
**评论原文**
> 评论1:[用户名] - [评论内容]
> 评论2:[用户名] - [评论内容]
> 作者回复:[回复内容]
---
### 3.2 笔记: [标题]
...
## 四、评论精选汇总
[按主题分类的重要评论原文]
## 五、关键发现
[简要归纳,不超过总内容的10%]
与用户的沟通规范
- 开始前:确认采集主题和范围,展示搜索关键词计划
- 执行中:每完成一轮关键词搜索后简要汇报进度
- 遇到问题时:如搜索结果过少、内容不相关等,及时与用户沟通调整
- 完成后:提交完整的信息采集报告,询问是否需要补充采集
Common Mistakes to Avoid
- 使用外部搜索引擎:绝对禁止使用Google、Bing、百度等搜索小红书内容
- 改写原文:采集内容必须保留原文,不做改写或总结
- 遗漏图片:未右划浏览所有图片就结束采集
- 遗漏评论:未下拉加载完整评论就结束采集
- 重复采集:未做去重处理导致同一笔记被重复记录
- 关键词单一:仅使用一两个关键词就结束搜索,未做穷尽式搜索
- 归纳过多:归纳总结内容超过10%,违反原文至上原则
- 缺少来源标注:记录信息时未标明出处