本技能利用大模型的理解能力和解析工具,将复杂的 HTML DOM 结构转换为易于处理的 JSON 格式。
标签,提取表头和行数据。- 列表提取:识别重复的容器结构(如
div.item, li),提取其中的关键字段。 - 表单提取:识别输入框、下拉框及其当前值。
- 语义映射:根据页面上下文,将提取的原始文本映射到有意义的键值对(如将 "订单号:123" 转为
{"order_id": "123"})。 - 生成 JSON:构建统一的半结构化 JSON 对象。
- 验证与清洗:去除冗余的 HTML 标签和空白字符,确保数据整洁。
关键指令
- "解析该页面的订单表格并转为 JSON"
- "从 HTML 中提取商家的基本信息和配置参数"
注意事项
- 对于结构极其复杂的页面,可以先使用
BeautifulSoup 进行初步清洗,再交给大模型进行语义提取。 - 确保生成的 JSON 格式符合后续存储或分析的要求。
版本历史
共 1 个版本
-
v1.0.0
Initial release 当前
2026-05-15 11:23 安全 安全