DomParseSkill

本技能利用大模型的理解能力和解析工具，将复杂的 HTML DOM 结构转换为易于处理的 JSON 格式。

工作流程

接收输入：获取待解析的 HTML 字符串或本地 HTML 文件路径。
结构识别：

表格提取：识别

 标签，提取表头和行数据。列表提取：识别重复的容器结构（如 div.item, li），提取其中的关键字段。
表单提取：识别输入框、下拉框及其当前值。
语义映射：根据页面上下文，将提取的原始文本映射到有意义的键值对（如将 "订单号：123" 转为 {"order_id": "123"}）。
生成 JSON：构建统一的半结构化 JSON 对象。
验证与清洗：去除冗余的 HTML 标签和空白字符，确保数据整洁。
关键指令
"解析该页面的订单表格并转为 JSON"
"从 HTML 中提取商家的基本信息和配置参数"
注意事项
对于结构极其复杂的页面，可以先使用 BeautifulSoup 进行初步清洗，再交给大模型进行语义提取。
确保生成的 JSON 格式符合后续存储或分析的要求。

            
                版本历史
                                共 1 个版本
                
                                        
                        
                            v1.0.0
                            Initial release                            当前                        
                        
                            2026-05-15 11:23                             安全 安全                        
                    
                                    
                            
        

            
                安全检测
                                                    
                        腾讯云安全 (Keen)
                        
                            安全，无风险                        
                        查看报告                    
                                    
                        腾讯云安全 (Sanbu)
                        
                            安全，无风险                        
                        查看报告                    
                
                            
        

            🔗 相关推荐
            
                                
                    
                    craw
                    user_223dc0b0
                    使用已有的登录态爬取商家后台页面 HTML。支持自动跳转、等待加载、分页发现和子链接提取。
                    
                        ★ 0
                        📥 73
                    
                
                                
                    
                    parse11
                    user_223dc0b0
                    将 HTML 页面内容解析为半结构化的 JSON 数据。支持提取表格、列表、表单和纯文本。
                    
                        ★ 0
                        📥 57
                    
                
                                
                    
                    store
                    user_223dc0b0
                    将爬取的 HTML 和解析后的 JSON 数据持久化到数据库（如 PostgreSQL）。支持版本化快照存储。
                    
                        ★ 0
                        📥 98
                    
                
                            
        

    Skill工具集 © 2026

parse

概述

DomParseSkill

工作流程

关键指令

注意事项

版本历史

安全检测

腾讯云安全 (Keen)

腾讯云安全 (Sanbu)

🔗 相关推荐

craw

parse11

store