← 返回
未分类

智能网页爬虫

智能网页数据采集器。自动识别网页结构,批量抓取列表/表格/详情页数据,支持导出JSON/CSV/Excel。内置反爬策略适配。
智能网页数据采集器。自动识别网页结构,批量抓取列表/表格/详情页数据,支持导出JSON/CSV/Excel。内置反爬策略适配。
cjstate
未分类 clawhub v1.0.0 1 版本 100000 Key: 无需
★ 1
Stars
📥 638
下载
💾 0
安装
1
版本
#latest

概述

Smart Web Scraper - 智能网页数据采集器

功能特点

🔍 智能识别

  • 自动识别列表页、详情页、表格数据
  • 智能提取标题、价格、作者等关键字段
  • 支持分页自动采集

🛡️ 反爬应对

  • 随机User-Agent轮换
  • 请求延迟随机化
  • IP代理池支持(可选)
  • 自动重试机制

📊 数据导出

  • JSON批量导出
  • CSV/Excel表格
  • 数据库直存(MySQL/MongoDB)

安装

cd smart-web-scraper
npm install

使用方法

命令行采集

# 采集单页
node scraper.js --url "https://example.com/products" --selector ".product-item"

# 批量分页采集
node scraper.js --url "https://example.com/list" --pages 10 --output data.json

# 导出CSV
node scraper.js --url "https://example.com/products" --format csv --output products.csv

配置采集(config.json)

{
  "target": {
    "url": "https://example.com/items",
    "pages": 5,
    "waitFor": ".loading"
  },
  "fields": [
    {"name": "title", "selector": ".title", "type": "text"},
    {"name": "price", "selector": ".price", "type": "text"},
    {"name": "image", "selector": "img", "type": "attr", "attr": "src"}
  ],
  "export": {
    "format": "json",
    "file": "output.json"
  }
}

示例场景

场景命令
------------
电商商品采集node scraper.js --url "https://shop.example.com" --selector ".product"
房价数据node scraper.js --config housing-config.json
职位列表node scraper.js --url "https://jobs.example.com" --pages 20 --delay 2000

注意事项

  • 遵守网站robots.txt规则
  • 合理设置采集间隔
  • 商业使用请确认授权

版本历史

共 1 个版本

  • v1.0.0 当前
    2026-05-07 08:03 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

Context Continuity

cjstate
上下文续接与记忆管理。当用户说“新建对话”“继续”“接着上次”等时,自动从 MEMORY.md 与 memory/ 目录提取当前任务/项目上下文,使新会话能了解之前的进展。适用于:① 开始新对话但保留上下文;② 继续上次的工作;③ 回顾进行
★ 0 📥 835

自动化工作流引擎

cjstate
自动化工作流引擎,支持cron、Webhook、文件监控触发,定时执行数据采集→处理→通知→存档流程。
★ 0 📥 413

Twitter Automation Suite

cjstate
Twitter/X自动化运营套件:自动发布、关键词监控、批量回复、AI生成推文。适用于社交媒体运营、账号增长、竞品监控。
★ 0 📥 352