Skill工具集

全部技能分类浏览

← 返回

未分类

craw

使用已有的登录态爬取商家后台页面 HTML。支持自动跳转、等待加载、分页发现和子链接提取。

使用已有的登录态爬取商家后台页面 HTML。支持自动跳转、等待加载、分页发现和子链接提取。

user_223dc0b0

未分类 community v1.0.0 1 版本 98550.7 Key: 无需

★ 0

Stars

📥 68

下载

💾 0

安装

1

版本

#latest

概述

BrowserCrawlSkill

本技能用于在已登录的状态下，高效地抓取商家后台的页面内容。

工作流程

加载登录态：从指定路径（如 /home/ubuntu/storage/logins/{merchant_id}_session.json）读取 cookies 和 storage 数据。
注入登录态：在浏览器工具中应用这些 cookies，确保访问目标 URL 时处于登录状态。
执行爬取：

跳转到目标 URL。
自动等待页面核心元素加载完成（使用 wait_until: "networkidle" 或特定的选择器）。

处理动态内容：如果页面有滚动加载或异步请求，执行必要的滚动操作以获取完整 HTML。
发现与遍历：

自动识别分页按钮并循环爬取。
提取页面中的子链接（如订单详情页链接）并加入爬取队列。

输出结果：返回页面的完整 HTML 字符串，或将其保存为本地文件。

关键指令

"使用 [商家ID] 的登录态抓取 [URL] 页面"
"自动遍历并抓取 [商家后台] 的所有订单列表页"

注意事项

爬取过程中应注意频率控制，避免触发反爬机制。
如果发现登录态失效（如跳转回登录页），应触发 BrowserLoginSkill 重新登录。

版本历史

共 1 个版本

v1.0.0 Initial release 当前

2026-05-15 11:22 安全安全

安全检测

腾讯云安全 (Keen)

安全，无风险

查看报告

腾讯云安全 (Sanbu)

安全，无风险

查看报告

🔗 相关推荐

parse

user_223dc0b0

将 HTML 页面内容解析为半结构化的 JSON 数据。支持提取表格、列表、表单和纯文本。

★ 0 📥 72

store

user_223dc0b0

将爬取的 HTML 和解析后的 JSON 数据持久化到数据库（如 PostgreSQL）。支持版本化快照存储。

★ 0 📥 98

parse11

user_223dc0b0

将 HTML 页面内容解析为半结构化的 JSON 数据。支持提取表格、列表、表单和纯文本。

★ 0 📥 57