← 返回
未分类

web-data-extractor(网页数据采集器,支持 CSS/XPath 选择器、批量抓取、自动分页、数据导出(CSV/JSON)。 适用于市场调研、竞品分析、内容聚合。)

网页数据采集器,支持 CSS 选择器/XPath 提取、批量抓取、自动分页、数据导出(CSV/JSON/Markdown)。
网页数据采集器,支持CSS/XPath 提取、批量抓取、自动分页、导出 CSV/JSON/Markdown。
careytian-ai
未分类 clawhub v1.0.0 1 版本 100000 Key: 无需
★ 0
Stars
📥 613
下载
💾 2
安装
1
版本
#latest

概述

网页数据采集器 v1.0.0

从网页批量提取结构化数据,支持多种选择器和导出格式。

功能特性

1. CSS 选择器提取

// 提取所有标题
web_fetch({"url": "https://example.com"})
// 使用 CSS 选择器提取特定元素

2. XPath 提取

// 支持 XPath 路径提取复杂结构

3. 批量抓取

  • 自动分页处理
  • URL 列表批量处理
  • 并发控制

4. 数据导出

  • CSV 格式
  • JSON 格式
  • Markdown 表格

快速使用示例

// 提取文章列表
const articles = extractData({
  url: "https://blog.example.com",
  selector: ".article-card",
  fields: {
    title: "h2.title",
    link: "a[href]",
    date: ".publish-date"
  }
})

// 导出为 CSV
exportToCSV(articles, "output.csv")

// 导出为 JSON
exportToJSON(articles, "output.json")

// 批量抓取多页
const allData = scrapeMultiple({
  baseUrl: "https://example.com/page/",
  pages: 10,
  selector: ".item"
})

使用场景

  1. 市场调研 - 抓取竞品价格、产品信息
  2. 内容聚合 - 收集多源内容
  3. 数据分析 - 提取公开数据集
  4. 舆情监控 - 追踪 mentions、评论
  5. SEO 分析 - 抓取关键词排名

注意事项

  • 遵守目标网站的 robots.txt
  • 控制抓取频率,避免被封
  • 仅抓取公开数据

定制开发

需要定制化数据采集、清洗或自动化工作流?

📧 联系:careytian-ai@github


许可证

MIT-0

版本历史

共 1 个版本

  • v1.0.0 当前
    2026-05-03 06:45 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

automation-workflow-builder(自动化工作流构建器,设计并执行跨平台自动化流程,支持定时触发、文件监控、多步骤操作。适用于数据同步、内容发布、报告生成。)

careytian-ai
自动化工作流构建器,用于设计并执行跨平台自动化流程,支持触发器、条件判断和多步骤操作。
★ 3 📥 4,032

中文搜索增强工具,整合百度、必应、微信、知乎等 6 个中文搜索引擎,支持高级搜索语法和时间过滤,无需 API 密钥。

careytian-ai
中文搜索增强工具,整合百度、必应、微信、知乎等搜索引擎,支持高级搜索语法和时间过滤。
★ 1 📥 1,289

content-batch-processor(批量内容处理工具,支持文本格式化、摘要生成、关键词提取、文件格式转换等批处理操作,提升内容工作效率。)

careytian-ai
批量内容处理工具:文本格式化、摘要生成、关键词提取、多语言翻译等。
★ 0 📥 419