← 返回
未分类

store

将爬取的 HTML 和解析后的 JSON 数据持久化到数据库(如 PostgreSQL)。支持版本化快照存储。
将爬取的 HTML 和解析后的 JSON 数据持久化到数据库(如 PostgreSQL)。支持版本化快照存储。
user_223dc0b0
未分类 community v1.0.0 1 版本 100000 Key: 无需
★ 0
Stars
📥 90
下载
💾 0
安装
1
版本
#latest

概述

DataStoreSkill

本技能负责将采集到的原始数据和处理后的结构化数据安全地存入数据库。

工作流程

  1. 连接数据库:使用提供的凭据连接到 PostgreSQL 数据库。
  2. 准备数据:整合 merchant_id, url, html, json 以及当前时间戳。
  3. 执行写入
    • 将原始 HTML 存入 merchant_raw_pages 表。
    • 将解析后的 JSON 存入对应的业务表或 JSONB 字段。
  4. 版本化管理
    • 检查当日是否已有快照。
    • 如果需要,创建新的版本记录,确保数据可追溯。
  5. 确认与反馈:返回写入结果状态(成功/失败及错误信息)。

数据库 Schema 参考

CREATE TABLE merchant_data_snapshots (
    id SERIAL PRIMARY KEY,
    merchant_id VARCHAR(50),
    page_key VARCHAR(100),
    url TEXT,
    raw_html TEXT,
    parsed_json JSONB,
    snapshot_date DATE DEFAULT CURRENT_DATE,
    created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
);

关键指令

  • "将解析后的订单数据存入数据库,商家ID为 [ID]"
  • "为 [商家] 创建今日的数据快照"

注意事项

  • 写入大数据量(如长 HTML)时,注意数据库的存储限制和性能。
  • 确保对敏感数据进行必要的脱敏处理。

版本历史

共 1 个版本

  • v1.0.0 Initial release 当前
    2026-05-15 11:23 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

craw

user_223dc0b0
使用已有的登录态爬取商家后台页面 HTML。支持自动跳转、等待加载、分页发现和子链接提取。
★ 0 📥 73

login

user_223dc0b0
登录商家后台并处理验证码,生成并保存登录态(cookies、localStorage)。适用于需要登录才能访问的网页爬取任务。
★ 0 📥 70

parse

user_223dc0b0
将 HTML 页面内容解析为半结构化的 JSON 数据。支持提取表格、列表、表单和纯文本。
★ 0 📥 72