web-data-extractor（网页数据采集器，支持 CSS/XPath 选择器、批量抓取、自动分页、数据导出（CSV/JSON）。适用于市场调研、竞品分析、内容聚合。）

网页数据采集器，支持 CSS 选择器/XPath 提取、批量抓取、自动分页、数据导出（CSV/JSON/Markdown）。

网页数据采集器，支持CSS/XPath 提取、批量抓取、自动分页、导出 CSV/JSON/Markdown。

careytian-ai

未分类 clawhub v1.0.0 1 版本 100000 Key: 无需

★ 0

Stars

📥 613

下载

💾 2

安装

版本

#latest

概述

网页数据采集器 v1.0.0

从网页批量提取结构化数据，支持多种选择器和导出格式。

功能特性

1. CSS 选择器提取

// 提取所有标题
web_fetch({"url": "https://example.com"})
// 使用 CSS 选择器提取特定元素

2. XPath 提取

// 支持 XPath 路径提取复杂结构

3. 批量抓取

自动分页处理
URL 列表批量处理
并发控制

4. 数据导出

CSV 格式
JSON 格式
Markdown 表格

快速使用示例

// 提取文章列表
const articles = extractData({
  url: "https://blog.example.com",
  selector: ".article-card",
  fields: {
    title: "h2.title",
    link: "a[href]",
    date: ".publish-date"
  }
})

// 导出为 CSV
exportToCSV(articles, "output.csv")

// 导出为 JSON
exportToJSON(articles, "output.json")

// 批量抓取多页
const allData = scrapeMultiple({
  baseUrl: "https://example.com/page/",
  pages: 10,
  selector: ".item"
})

使用场景

市场调研 - 抓取竞品价格、产品信息
内容聚合 - 收集多源内容
数据分析 - 提取公开数据集
舆情监控 - 追踪 mentions、评论
SEO 分析 - 抓取关键词排名

注意事项

遵守目标网站的 robots.txt
控制抓取频率，避免被封
仅抓取公开数据

定制开发

需要定制化数据采集、清洗或自动化工作流？

📧 联系：careytian-ai@github

许可证

MIT-0

版本历史

共 1 个版本

v1.0.0 当前

2026-05-03 06:45 安全安全

安全检测

腾讯云安全 (Keen)

安全，无风险

查看报告

腾讯云安全 (Sanbu)

安全，无风险

查看报告

🔗 相关推荐

web-data-extractor（网页数据采集器，支持 CSS/XPath 选择器、批量抓取、自动分页、数据导出（CSV/JSON）。适用于市场调研、竞品分析、内容聚合。）

概述

网页数据采集器 v1.0.0

功能特性

1. CSS 选择器提取

2. XPath 提取

3. 批量抓取

4. 数据导出

快速使用示例

使用场景

注意事项

定制开发

许可证

版本历史

安全检测

腾讯云安全 (Keen)

腾讯云安全 (Sanbu)

🔗 相关推荐

automation-workflow-builder（自动化工作流构建器，设计并执行跨平台自动化流程，支持定时触发、文件监控、多步骤操作。适用于数据同步、内容发布、报告生成。）

中文搜索增强工具，整合百度、必应、微信、知乎等 6 个中文搜索引擎，支持高级搜索语法和时间过滤，无需 API 密钥。

content-batch-processor（批量内容处理工具，支持文本格式化、摘要生成、关键词提取、文件格式转换等批处理操作，提升内容工作效率。）

web-data-extractor（网页数据采集器，支持 CSS/XPath 选择器、批量抓取、自动分页、数据导出（CSV/JSON）。 适用于市场调研、竞品分析、内容聚合。）

概述

网页数据采集器 v1.0.0

功能特性

1. CSS 选择器提取

2. XPath 提取

3. 批量抓取

4. 数据导出

快速使用示例

使用场景

注意事项

定制开发

许可证

版本历史

安全检测

腾讯云安全 (Keen)

腾讯云安全 (Sanbu)

🔗 相关推荐

automation-workflow-builder（自动化工作流构建器，设计并执行跨平台自动化流程，支持定时触发、文件监控、多步骤操作。适用于数据同步、内容发布、报告生成。）

中文搜索增强工具，整合百度、必应、微信、知乎等 6 个中文搜索引擎，支持高级搜索语法和时间过滤，无需 API 密钥。

content-batch-processor（批量内容处理工具，支持文本格式化、摘要生成、关键词提取、文件格式转换等批处理操作，提升内容工作效率。）

web-data-extractor（网页数据采集器，支持 CSS/XPath 选择器、批量抓取、自动分页、数据导出（CSV/JSON）。适用于市场调研、竞品分析、内容聚合。）