← 返回
未分类
craw
使用已有的登录态爬取商家后台页面 HTML。支持自动跳转、等待加载、分页发现和子链接提取。
使用已有的登录态爬取商家后台页面 HTML。支持自动跳转、等待加载、分页发现和子链接提取。
user_223dc0b0
未分类
community
v1.0.0 1 版本 98550.7 Key: 无需
#latest
概述
BrowserCrawlSkill
本技能用于在已登录的状态下,高效地抓取商家后台的页面内容。
工作流程
- 加载登录态:从指定路径(如
/home/ubuntu/storage/logins/{merchant_id}_session.json)读取 cookies 和 storage 数据。 - 注入登录态:在浏览器工具中应用这些 cookies,确保访问目标 URL 时处于登录状态。
- 执行爬取:
- 跳转到目标 URL。
- 自动等待页面核心元素加载完成(使用
wait_until: "networkidle" 或特定的选择器)。
- 处理动态内容:如果页面有滚动加载或异步请求,执行必要的滚动操作以获取完整 HTML。
- 发现与遍历:
- 自动识别分页按钮并循环爬取。
- 提取页面中的子链接(如订单详情页链接)并加入爬取队列。
- 输出结果:返回页面的完整 HTML 字符串,或将其保存为本地文件。
关键指令
- "使用 [商家ID] 的登录态抓取 [URL] 页面"
- "自动遍历并抓取 [商家后台] 的所有订单列表页"
注意事项
- 爬取过程中应注意频率控制,避免触发反爬机制。
- 如果发现登录态失效(如跳转回登录页),应触发
BrowserLoginSkill 重新登录。
安全检测
腾讯云安全 (Sanbu)
安全,无风险
查看报告
🔗 相关推荐
user_223dc0b0
将 HTML 页面内容解析为半结构化的 JSON 数据。支持提取表格、列表、表单和纯文本。
★ 0
📥 72
user_223dc0b0
将爬取的 HTML 和解析后的 JSON 数据持久化到数据库(如 PostgreSQL)。支持版本化快照存储。
★ 0
📥 98
user_223dc0b0
将 HTML 页面内容解析为半结构化的 JSON 数据。支持提取表格、列表、表单和纯文本。
★ 0
📥 57