← 返回
未分类

DataCrawl Debug

Use when user needs to process web data, debug data collection code, clean processed data, or iterate on data processing strategies. Use when generating data...
用于处理网页数据、调试数据采集代码、清洗已处理的数据或迭代数据处理策略。用于生成数据...
wangm-a3 wangm-a3 来源
未分类 clawhub v1.2.0 2 版本 100000 Key: 无需
★ 0
Stars
📥 390
下载
💾 0
安装
2
版本
#latest

概述

DataProcess Debug — 数据处理全流程工具

> 处理得了·修得好·洗得净·跑得稳

核心定位

数据处理的"急诊室+健身房"——出了问题来急诊(DebugRunner),日常训练来健身(IterateOptimizer),全程配营养师(DataCleaner)。

5大核心模块

1. ProcessEngine — 数据处理配置生成 + 结果解析

scripts/process-engine.py config --url URL --fields 字段1 字段2 --mode static|dynamic|api
scripts/process-engine.py extract --html "HTML内容" --fields 字段1 字段2
  • 站点类型自动识别(电商/B2B/社媒/内容/政府/开发者)
  • 3种模式工具推荐 + CSS/XPath选择器建议
  • HTML结构化提取(文本/链接/图片/表格/列表)

2. CodeGenerator — 数据处理代码自动生成

scripts/code-generator.py --name 项目名 --url URL --fields 字段1 字段2 --mode requests_bs4|playwright|api_client
  • 3种模板自动选择:静态页面/动态渲染/API接口
  • 生成完整可运行代码 + 依赖安装 + 使用步骤

3. DebugRunner — 代码调试与修复

scripts/debug-runner.py --error "错误信息"
  • 8类错误模式库:connection/http_error/timeout/selector_error/encoding/json_parse/selenium_playwright/rate_limit
  • HTTP子类型精准诊断(403限流/429限流/503服务不可用等各有方案)
  • 代码片段扫描(缺异常处理/超时/延迟/UA自动检测)

4. DataCleaner — 数据清洗格式化

scripts/data-cleaner.py clean --input 数据 --remove-html --remove-duplicates
scripts/data-cleaner.py normalize --input 数据 --schema 类型定义
scripts/data-cleaner.py format --input 数据 --format json|csv|jsonl --fields 字段列表

5. IterateOptimizer — 自我迭代优化

scripts/iterate-optimizer.py analyze --input 运行历史.json
scripts/iterate-optimizer.py improve --config 当前配置 --analysis 分析结果
  • 成功率趋势 / 错误聚类 / 字段覆盖率 / 优化建议
  • 自动调整延迟/超时/重试/模式切换

合规声明

核心原则

  • 遵守 robots.txt:先检查目标站点的 robots.txt 协议
  • 控制请求频率:合理设置请求间隔,避免对服务器造成压力
  • 使用官方 API:优先使用官方提供的 API 接口获取数据
  • 合法授权:仅处理有合法授权的数据

常见问题处理建议

问题建议方案
----------------
连接失败检查URL有效性,添加重试机制
超时错误增加超时时间,等待后重试
选择器失效检查页面结构,更新选择器
编码问题指定正确编码,使用容错解析

动态页面处理

当目标站点使用 JavaScript 渲染内容时:

  1. 使用 Playwright 等工具进行页面渲染
  2. 等待页面完全加载后再提取数据
  3. 添加适当的页面等待时间

注意事项

  • 本技能旨在帮助开发者调试和处理已获取的公开数据
  • 不鼓励也不支持任何形式的未授权数据访问
  • 使用前请确保您的数据获取行为符合目标站点的服务条款

使用流程

  1. 配置: process-engine.py config → 了解目标站点+推荐方案
  2. 生成代码: code-generator.py → 获得起始代码模板
  3. 调试: 遇错 → debug-runner.py → 秒级诊断
  4. 清洗: data-cleaner.py → 去重+标准化+格式化
  5. 迭代: iterate-optimizer.py → 基于运行数据持续改进

版本历史

共 2 个版本

  • v1.2.0 当前
    2026-05-09 16:53 安全 安全
  • v1.1.0
    2026-05-07 23:35 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

data-analysis

Tavily 搜索

jacky1n7
通过 Tavily API 进行网页搜索(Brave 替代方案)。当用户要求搜索网页、查找来源或链接,且 Brave 网页搜索不可用时使用。
★ 278 📥 101,483
life-service

Travel.Skills

wangm-a3
AI驱动家庭旅行规划,支持人群规避、老年人及儿童友好路线,并集成预订功能
★ 0 📥 1,076
data-analysis

AdMapix

fly0pants
AdMapix 原始数据层,提供广告创意、应用、排名、下载/收入及市场元数据。返回 AdMapix API 的结构化 JSON;调用方...
★ 298 📥 142,875