← 返回
未分类

parse

将 HTML 页面内容解析为半结构化的 JSON 数据。支持提取表格、列表、表单和纯文本。
将 HTML 页面内容解析为半结构化的 JSON 数据。支持提取表格、列表、表单和纯文本。
user_223dc0b0
未分类 community v1.0.0 1 版本 98437.5 Key: 无需
★ 0
Stars
📥 63
下载
💾 0
安装
1
版本
#latest

概述

DomParseSkill

本技能利用大模型的理解能力和解析工具,将复杂的 HTML DOM 结构转换为易于处理的 JSON 格式。

工作流程

  1. 接收输入:获取待解析的 HTML 字符串或本地 HTML 文件路径。
  2. 结构识别
    • 表格提取:识别 标签,提取表头和行数据。
    • 列表提取:识别重复的容器结构(如 div.item, li),提取其中的关键字段。
    • 表单提取:识别输入框、下拉框及其当前值。
    • 语义映射:根据页面上下文,将提取的原始文本映射到有意义的键值对(如将 "订单号:123" 转为 {"order_id": "123"})。
    • 生成 JSON:构建统一的半结构化 JSON 对象。
    • 验证与清洗:去除冗余的 HTML 标签和空白字符,确保数据整洁。
    • 关键指令

      • "解析该页面的订单表格并转为 JSON"
      • "从 HTML 中提取商家的基本信息和配置参数"

      注意事项

      • 对于结构极其复杂的页面,可以先使用 BeautifulSoup 进行初步清洗,再交给大模型进行语义提取。
      • 确保生成的 JSON 格式符合后续存储或分析的要求。

      版本历史

      共 1 个版本

      • v1.0.0 Initial release 当前
        2026-05-15 11:23 安全 安全

      安全检测

      腾讯云安全 (Keen)

      安全,无风险
      查看报告

      腾讯云安全 (Sanbu)

      安全,无风险
      查看报告

      🔗 相关推荐

      craw

      user_223dc0b0
      使用已有的登录态爬取商家后台页面 HTML。支持自动跳转、等待加载、分页发现和子链接提取。
      ★ 0 📥 73

      parse11

      user_223dc0b0
      将 HTML 页面内容解析为半结构化的 JSON 数据。支持提取表格、列表、表单和纯文本。
      ★ 0 📥 57

      store

      user_223dc0b0
      将爬取的 HTML 和解析后的 JSON 数据持久化到数据库(如 PostgreSQL)。支持版本化快照存储。
      ★ 0 📥 98